データ分析入門

CSVデータを使った基本的な統計分析手法

データ分析の基本

データ分析とは、収集されたデータから有意な情報やパターンを発見し、 意思決定に役立つ知見を得るプロセスです。

データ分析の4つのステップ

1
データ収集
2
データクリーニング
3
分析・可視化
4
結果解釈

基本統計量

データの特徴を数値で要約する基本的な指標について学びましょう。

平均値(Mean)

すべての値の合計を個数で割った値。最も一般的な代表値。

平均値 = (値1 + 値2 + ... + 値n) ÷ n

使用例:

売上データ: 100, 150, 200, 120, 180
平均値 = 750 ÷ 5 = 150

⚠️ 外れ値の影響を受けやすい

中央値(Median)

データを小さい順に並べた時の真ん中の値。外れ値に強い。

奇数個: 真ん中の値

偶数個: 中央2値の平均

使用例:

年収データ: 300, 400, 450, 500, 2000万円
中央値 = 450万円
(平均値 = 730万円)

✅ 高額年収者の影響を受けない

最頻値(Mode)

最も頻繁に出現する値。カテゴリデータで特に有用。

複数の最頻値が存在する場合もある

使用例:

購入商品: りんご, バナナ, りんご, みかん, りんご
最頻値 = りんご(3回)

✅ 最も人気の商品を特定

標準偏差(Standard Deviation)

データのばらつき度合いを示す指標。値が大きいほどデータが散らばっている。

約68%のデータが平均±1σの範囲内

約95%のデータが平均±2σの範囲内

活用例:

テストの点数分布分析
品質管理の許容範囲設定
リスク評価の指標
外れ値の検出

データの分布分析

ヒストグラムと度数分布

データの分布形状を理解することで、データの特性や傾向を把握できます。

正規分布

• 釣鐘型の対称的な分布

• 平均値 = 中央値 = 最頻値

• 自然現象でよく見られる

例: 身長、体重、テストの点数

歪んだ分布

• 左右非対称の分布

• 平均値 ≠ 中央値

• 外れ値の存在を示唆

例: 年収、売上、アクセス数

四分位数とボックスプロット

四分位数の定義

  • Q1(第1四分位数): 下位25%の境界
  • Q2(第2四分位数): 中央値(50%)
  • Q3(第3四分位数): 上位25%の境界
  • IQR: Q3 - Q1(四分位範囲)

ボックスプロット

• 5つの要約統計量を視覚化

• 外れ値の検出に有効

• 複数グループの比較に便利

最小値 --|-- Q1 |■■■| Q2 |■■■| Q3 --|-- 最大値

相関分析

2つの変数間の関係の強さと方向を測定する分析手法です。

正の相関

• 相関係数: 0 < r ≤ 1

• 一方が増えると他方も増える

• 例: 勉強時間と点数

r = 0.8 (強い正の相関)

負の相関

• 相関係数: -1 ≤ r < 0

• 一方が増えると他方が減る

• 例: 価格と需要量

r = -0.6 (中程度の負の相関)

無相関

• 相関係数: r ≈ 0

• 明確な関係が見られない

• 例: 身長と数学の点数

r = 0.1 (無相関)

相関係数の解釈指針

|r| ≥ 0.7: 強い相関

0.4 ≤ |r| < 0.7: 中程度の相関

0.2 ≤ |r| < 0.4: 弱い相関

|r| < 0.2: ほぼ無相関

注意: 相関があっても因果関係があるとは限りません

CSVツールキットでの実践

CSVツールキットの機能を使って、実際にデータ分析を行う手順を説明します。

分析ワークフロー

1. データ品質チェック

「データ分析」タブで品質レポートを生成

  • 欠損値・重複値・外れ値の確認
  • データ型の整合性チェック
  • 品質スコアの評価

2. データクリーニング

必要に応じて「重複削除」「日本語クリーニング」を実行

  • 重複データの除去
  • 文字種の統一
  • 形式の正規化

3. 可視化・集計

「グラフ作成」タブでデータの分布や傾向を可視化

  • カテゴリ別の集計
  • 棒グラフ・円グラフでの可視化
  • 上位項目の特定

4. 結果の活用

分析結果をレポートやプレゼンテーションに活用

  • 統計レポートのダウンロード
  • チャートデータの出力
  • 改善提案の実施

実際の分析事例

事例1: 売上データ分析

データ
月別売上: 120万, 150万, 180万, 140万, 200万
分析結果
平均売上: 158万円
中央値: 150万円
標準偏差: 29.4万円
→ 安定した成長傾向

事例2: 顧客年齢分析

データ
年齢層: 20代(15%), 30代(35%), 40代(30%), 50代+(20%)
分析結果
最頻値: 30代
中央値: 35-40歳
分布: やや若年層寄り
→ 30-40代向け戦略が有効

事例3: 品質管理データ

データ
製品重量: 99.8g, 100.2g, 100.1g, 105.0g, 99.9g
分析結果
平均: 101.0g
標準偏差: 2.1g
外れ値: 105.0g
→ 製造プロセス要確認

分析スキルの向上

基本的なデータ分析を習得したら、さらに高度な分析手法に挑戦しましょう。

学習を継続するために

  • 実際のデータで練習を重ねる
  • 様々な業界・分野のデータに触れる
  • 統計学の基礎知識を身につける
  • データ可視化の技術を学ぶ
  • 機械学習・AIの基礎を理解する