データクリーニング入門

データ品質向上のための実践的手法

データクリーニングとは

データクリーニングとは、データセットから不正確、不完全、無関係、または破損したデータを 検出し、修正または削除するプロセスです。高品質なデータ分析の基盤となる重要な作業です。

データクリーニングの重要性

  • 分析結果の精度向上
  • 意思決定の信頼性確保
  • 処理時間の短縮
  • システムエラーの防止
  • レポート品質の向上

データ品質の6つの側面

完全性: 欠損値がない

正確性: 現実と一致している

一貫性: 形式が統一されている

妥当性: 制約条件を満たす

一意性: 重複がない

適時性: 最新の状態

重複データの処理

重複データの種類

完全一致の重複

田中太郎,25,東京
田中太郎,25,東京 ← 重複

全ての列の値が完全に同じ

部分一致の重複

田中太郎,25,東京
田中 太郎,25,東京都 ← 類似

一部の列で表記が異なる

重複検出の方法

CSVツールキットでの検出

  1. CSVファイルをアップロード
  2. 「重複行検出」タブを選択
  3. 検出条件を設定(全列/特定列)
  4. 「重複検出」ボタンをクリック
  5. 結果をダウンロード

Excelでの検出

  • 「データ」タブ → 「重複の削除」
  • 条件付き書式で重複をハイライト
  • COUNTIF関数で重複回数をカウント

重複の処理方針

削除

明らかな重複データは削除

統合

情報を統合して1つのレコードに

保留

判断が困難な場合は別途確認

欠損値の処理

欠損値の種類

明示的欠損値

  • 空セル(何も入力されていない)
  • NULL、N/A、"-"などの文字
  • 0(ゼロ)が欠損を意味する場合

暗黙的欠損値

  • 存在すべきレコード自体がない
  • 日付の抜け(2023/1/1、2023/1/3...)
  • カテゴリの不足

欠損値の処理方法

1. 削除

行削除

欠損値を含む行全体を削除

⚠️ データ量が大幅に減る可能性

列削除

欠損値の多い列を削除

⚠️ 重要な情報を失う可能性

2. 補完

平均値

数値データの平均値で補完

中央値

外れ値の影響を受けにくい

最頻値

カテゴリデータで使用

3. 推定

他の列の値から欠損値を推定

  • 線形回帰による推定
  • 類似レコードからの推定
  • 時系列データの前後値から推定

データ形式の統一

よくある形式の不統一

日付形式

不統一な例:

2023/01/15
2023-1-15
15/01/2023
Jan 15, 2023

統一方針: YYYY-MM-DD形式に統一

文字種(日本語)

不統一な例:

カタカナ / カタカナ
ひらがな / ヒラガナ
アルファベット / アルファベット
123 / 123

CSVツールキットの日本語クリーニング機能が有効

数値形式

不統一な例:

1,000 / 1000 / 1,000.00
¥1,000 / 1000円
10% / 0.1

統一化の手順

1

パターンの把握

どのような形式が混在しているかを調査

2

統一ルールの決定

標準的な形式を選択し、変換ルールを策定

3

変換処理の実行

ツールや関数を使って一括変換

4

検証・確認

変換結果の正確性を確認

外れ値の検出と処理

外れ値の種類

統計的外れ値

統計的に他の値から大きく外れている値

  • 平均±3σ(標準偏差)の範囲外
  • 四分位範囲(IQR)の1.5倍を超える
  • Zスコアが|3|を超える

論理的外れ値

論理的に矛盾している値

  • 年齢が負の値
  • 未来の日付
  • 100%を超える割合

検出方法

視覚的検出

  • 箱ひげ図(Box Plot)での確認
  • 散布図での分布確認
  • ヒストグラムでの分布形状確認

統計的検出

IQR法:

Q1 - 1.5×IQR ~ Q3 + 1.5×IQR の範囲外

Zスコア法:

|Z| > 3 の値を外れ値と判定

処理方針

削除

明らかなエラーの場合

修正

正しい値が推定できる場合

保持

重要な情報の可能性がある場合

ベストプラクティス

実践的なアプローチ

1. 元データのバックアップ

クリーニング作業前に必ず元データのコピーを作成

2. 段階的なアプローチ

一度に全てを処理せず、問題ごとに段階的に対処

3. 処理ログの記録

何をどのように修正したかを記録し、再現可能にする

4. 検証の実施

クリーニング後のデータ品質を定量的に評価

品質チェックリスト

基本チェック

  • 欠損値の有無
  • 重複レコードの有無
  • データ型の一貫性
  • 形式の統一性

詳細チェック

  • 外れ値の確認
  • 制約条件の確認
  • 関連性の確認
  • 文字コードの確認

CSVツールキットでのクリーニング

CSVツールキットでは、主要なデータクリーニング機能を提供しています。

利用可能な機能

  • 重複行の検出・削除
  • 日本語文字の統一(全角/半角、カタカナ/ひらがな)
  • データ品質レポートの生成
  • 統計分析による異常値検出
  • 文字コード変換

特徴

  • ブラウザ上で完結(サーバー送信なし)
  • 無料で制限なく利用可能
  • 日本語データに特化
  • 直感的なインターフェース
  • 処理結果の即座ダウンロード

使用例:日本語データクリーニング

処理前:

タナカ タロウ,25,トウキョウ

処理後:

タナカ タロウ,25,トウキョウ

関連リソース