データクリーニング入門
データ品質向上のための実践的手法
データクリーニングとは
データクリーニングとは、データセットから不正確、不完全、無関係、または破損したデータを 検出し、修正または削除するプロセスです。高品質なデータ分析の基盤となる重要な作業です。
データクリーニングの重要性
- 分析結果の精度向上
- 意思決定の信頼性確保
- 処理時間の短縮
- システムエラーの防止
- レポート品質の向上
データ品質の6つの側面
完全性: 欠損値がない
正確性: 現実と一致している
一貫性: 形式が統一されている
妥当性: 制約条件を満たす
一意性: 重複がない
適時性: 最新の状態
重複データの処理
重複データの種類
完全一致の重複
田中太郎,25,東京
田中太郎,25,東京 ← 重複
全ての列の値が完全に同じ
部分一致の重複
田中太郎,25,東京
田中 太郎,25,東京都 ← 類似
一部の列で表記が異なる
重複検出の方法
CSVツールキットでの検出
- CSVファイルをアップロード
- 「重複行検出」タブを選択
- 検出条件を設定(全列/特定列)
- 「重複検出」ボタンをクリック
- 結果をダウンロード
Excelでの検出
- 「データ」タブ → 「重複の削除」
- 条件付き書式で重複をハイライト
- COUNTIF関数で重複回数をカウント
重複の処理方針
削除
明らかな重複データは削除
統合
情報を統合して1つのレコードに
保留
判断が困難な場合は別途確認
欠損値の処理
欠損値の種類
明示的欠損値
- 空セル(何も入力されていない)
- NULL、N/A、"-"などの文字
- 0(ゼロ)が欠損を意味する場合
暗黙的欠損値
- 存在すべきレコード自体がない
- 日付の抜け(2023/1/1、2023/1/3...)
- カテゴリの不足
欠損値の処理方法
1. 削除
行削除
欠損値を含む行全体を削除
⚠️ データ量が大幅に減る可能性
列削除
欠損値の多い列を削除
⚠️ 重要な情報を失う可能性
2. 補完
平均値
数値データの平均値で補完
中央値
外れ値の影響を受けにくい
最頻値
カテゴリデータで使用
3. 推定
他の列の値から欠損値を推定
- 線形回帰による推定
- 類似レコードからの推定
- 時系列データの前後値から推定
データ形式の統一
よくある形式の不統一
日付形式
不統一な例:
2023/01/15
2023-1-15
15/01/2023
Jan 15, 2023
統一方針: YYYY-MM-DD形式に統一
文字種(日本語)
不統一な例:
カタカナ / カタカナ
ひらがな / ヒラガナ
アルファベット / アルファベット
123 / 123
CSVツールキットの日本語クリーニング機能が有効
数値形式
不統一な例:
1,000 / 1000 / 1,000.00
¥1,000 / 1000円
10% / 0.1
統一化の手順
1
パターンの把握
どのような形式が混在しているかを調査
2
統一ルールの決定
標準的な形式を選択し、変換ルールを策定
3
変換処理の実行
ツールや関数を使って一括変換
4
検証・確認
変換結果の正確性を確認
外れ値の検出と処理
外れ値の種類
統計的外れ値
統計的に他の値から大きく外れている値
- 平均±3σ(標準偏差)の範囲外
- 四分位範囲(IQR)の1.5倍を超える
- Zスコアが|3|を超える
論理的外れ値
論理的に矛盾している値
- 年齢が負の値
- 未来の日付
- 100%を超える割合
検出方法
視覚的検出
- 箱ひげ図(Box Plot)での確認
- 散布図での分布確認
- ヒストグラムでの分布形状確認
統計的検出
IQR法:
Q1 - 1.5×IQR ~ Q3 + 1.5×IQR の範囲外
Zスコア法:
|Z| > 3 の値を外れ値と判定
処理方針
削除
明らかなエラーの場合
修正
正しい値が推定できる場合
保持
重要な情報の可能性がある場合
ベストプラクティス
実践的なアプローチ
1. 元データのバックアップ
クリーニング作業前に必ず元データのコピーを作成
2. 段階的なアプローチ
一度に全てを処理せず、問題ごとに段階的に対処
3. 処理ログの記録
何をどのように修正したかを記録し、再現可能にする
4. 検証の実施
クリーニング後のデータ品質を定量的に評価
品質チェックリスト
基本チェック
- 欠損値の有無
- 重複レコードの有無
- データ型の一貫性
- 形式の統一性
詳細チェック
- 外れ値の確認
- 制約条件の確認
- 関連性の確認
- 文字コードの確認
CSVツールキットでのクリーニング
CSVツールキットでは、主要なデータクリーニング機能を提供しています。
利用可能な機能
- 重複行の検出・削除
- 日本語文字の統一(全角/半角、カタカナ/ひらがな)
- データ品質レポートの生成
- 統計分析による異常値検出
- 文字コード変換
特徴
- ブラウザ上で完結(サーバー送信なし)
- 無料で制限なく利用可能
- 日本語データに特化
- 直感的なインターフェース
- 処理結果の即座ダウンロード
使用例:日本語データクリーニング
処理前:
タナカ タロウ,25,トウキョウ
処理後:
タナカ タロウ,25,トウキョウ