データクリーニング入門

データ品質向上のための実践的手法

データクリーニングとは

データクリーニングとは、データセットから不正確、不完全、無関係、または破損したデータを検出し、修正または削除するプロセスです。高品質なデータ分析の基盤となる重要な作業です。

データクリーニングの重要性

分析結果の精度向上
意思決定の信頼性確保
処理時間の短縮
システムエラーの防止
レポート品質の向上

データ品質の6つの側面

完全性: 欠損値がない

正確性: 現実と一致している

一貫性: 形式が統一されている

妥当性: 制約条件を満たす

一意性: 重複がない

適時性: 最新の状態

重複データの処理

重複データの種類

完全一致の重複

田中太郎,25,東京

田中太郎,25,東京 ← 重複

全ての列の値が完全に同じ

部分一致の重複

田中太郎,25,東京

田中太郎,25,東京都 ← 類似

一部の列で表記が異なる

重複検出の方法

CSVツールキットでの検出

CSVファイルをアップロード
「重複行検出」タブを選択
検出条件を設定（全列/特定列）
「重複検出」ボタンをクリック
結果をダウンロード

Excelでの検出

「データ」タブ → 「重複の削除」
条件付き書式で重複をハイライト
COUNTIF関数で重複回数をカウント

重複の処理方針

削除

明らかな重複データは削除

統合

情報を統合して1つのレコードに

保留

判断が困難な場合は別途確認

欠損値の処理

欠損値の種類

明示的欠損値

空セル（何も入力されていない）
NULL、N/A、"-"などの文字
0（ゼロ）が欠損を意味する場合

暗黙的欠損値

存在すべきレコード自体がない
日付の抜け（2023/1/1、2023/1/3...）
カテゴリの不足

欠損値の処理方法

1. 削除

行削除

欠損値を含む行全体を削除

⚠️ データ量が大幅に減る可能性

列削除

欠損値の多い列を削除

⚠️ 重要な情報を失う可能性

2. 補完

平均値

数値データの平均値で補完

中央値

外れ値の影響を受けにくい

最頻値

カテゴリデータで使用

3. 推定

他の列の値から欠損値を推定

線形回帰による推定
類似レコードからの推定
時系列データの前後値から推定

データ形式の統一

よくある形式の不統一

日付形式

不統一な例:

2023/01/15

2023-1-15

15/01/2023

Jan 15, 2023

統一方針: YYYY-MM-DD形式に統一

文字種（日本語）

不統一な例:

カタカナ / ｶﾀｶﾅ

ひらがな / ﾋﾗｶﾞﾅ

アルファベット / ｱﾙﾌｧﾍﾞｯﾄ

123 / １２３

CSVツールキットの日本語クリーニング機能が有効

数値形式

不統一な例:

1,000 / 1000 / 1,000.00

¥1,000 / 1000円

10% / 0.1

統一化の手順

パターンの把握

どのような形式が混在しているかを調査

統一ルールの決定

標準的な形式を選択し、変換ルールを策定

変換処理の実行

ツールや関数を使って一括変換

検証・確認

変換結果の正確性を確認

外れ値の検出と処理

外れ値の種類

統計的外れ値

統計的に他の値から大きく外れている値

平均±3σ（標準偏差）の範囲外
四分位範囲（IQR）の1.5倍を超える
Zスコアが|3|を超える

論理的外れ値

論理的に矛盾している値

年齢が負の値
未来の日付
100%を超える割合

検出方法

視覚的検出

箱ひげ図（Box Plot）での確認
散布図での分布確認
ヒストグラムでの分布形状確認

統計的検出

IQR法:

Q1 - 1.5×IQR ～ Q3 + 1.5×IQR の範囲外

Zスコア法:

|Z| > 3 の値を外れ値と判定

処理方針

削除

明らかなエラーの場合

修正

正しい値が推定できる場合

保持

重要な情報の可能性がある場合

ベストプラクティス

実践的なアプローチ

1. 元データのバックアップ

クリーニング作業前に必ず元データのコピーを作成

2. 段階的なアプローチ

一度に全てを処理せず、問題ごとに段階的に対処

3. 処理ログの記録

何をどのように修正したかを記録し、再現可能にする

4. 検証の実施

クリーニング後のデータ品質を定量的に評価

品質チェックリスト

CSVツールキットでのクリーニング

CSVツールキットでは、主要なデータクリーニング機能を提供しています。

利用可能な機能

重複行の検出・削除
日本語文字の統一（全角/半角、カタカナ/ひらがな）
データ品質レポートの生成
統計分析による異常値検出
文字コード変換

特徴

ブラウザ上で完結（サーバー送信なし）
無料で制限なく利用可能
日本語データに特化
直感的なインターフェース
処理結果の即座ダウンロード

使用例：日本語データクリーニング

処理前:

ﾀﾅｶﾀﾛｳ,２５,ﾄｳｷｮｳ

処理後:

タナカタロウ,25,トウキョウ

データクリーニング入門

データクリーニングとは

データクリーニングの重要性

データ品質の6つの側面

重複データの処理

重複データの種類

完全一致の重複

部分一致の重複

重複検出の方法

CSVツールキットでの検出

Excelでの検出

重複の処理方針

削除

統合

保留

欠損値の処理

欠損値の種類

明示的欠損値

暗黙的欠損値

欠損値の処理方法

1. 削除

行削除

列削除

2. 補完

平均値

中央値

最頻値

3. 推定

データ形式の統一

よくある形式の不統一

日付形式

文字種（日本語）

数値形式

統一化の手順

外れ値の検出と処理

外れ値の種類

統計的外れ値

論理的外れ値

検出方法

視覚的検出

統計的検出

処理方針

削除

修正

保持

ベストプラクティス

実践的なアプローチ

1. 元データのバックアップ

2. 段階的なアプローチ

3. 処理ログの記録

4. 検証の実施

品質チェックリスト

基本チェック

詳細チェック

CSVツールキットでのクリーニング

利用可能な機能

特徴

使用例：日本語データクリーニング

関連リソース

CSV基礎知識

データ分析入門

文字コード解説

ツールを試す