文字コード解説

文字化け対策とエンコーディングの完全ガイド

文字コードとは

文字コード（文字エンコーディング）とは、コンピュータが文字をどのように数値として保存・表現するかを定める規則です。同じ文字でも、使用する文字コードによって異なる数値として表現されます。

なぜ複数の文字コードが存在するのか？

歴史的経緯：各国・地域で独自に発展
効率性：特定言語に最適化された設計
互換性：既存システムとの互換性維持
技術進歩：新しい要求に対応した改良版

文字化けが起こる仕組み

例：「こんにちは」という文字の場合

UTF-8で保存: E3 81 93 E3 82 93 E3 81 AB E3 81 A1 E3 81 AF

Shift-JISで読み込み: 縺薙ｓ縺ｫ縺｡縺ｯ

→ 異なる文字コードで読み込むと、正しく解釈されず文字化けが発生

主要な文字コード

UTF-8

UTF-8（Unicode Transformation Format 8-bit）

現在の国際標準・推奨形式

特徴

世界中の文字に対応（絵文字も含む）
Webの標準文字コード
下位互換性（ASCII文字は1バイト）
可変長エンコーディング（1-4バイト）

使用場面

Webサイト・Webアプリケーション
最新のソフトウェア・システム
クロスプラットフォーム開発
国際化対応アプリケーション

推奨度: ★★★★★ - 新規プロジェクトは必ずUTF-8を使用

SJIS

Shift-JIS（シフトJIS）

日本語Windows環境の標準

特徴

日本語に特化したエンコーディング
Windows日本語版の標準
Excel日本語版で使用
固定長・可変長の混在

使用場面

Windows環境での日本語処理
Excel・古い業務システム
レガシーシステムとの連携
日本語のみのローカルファイル

推奨度: ★★★☆☆ - 既存システム互換性が必要な場合のみ

EUC

EUC-JP（Extended Unix Code）

Unix/Linux環境で使用

特徴

Unix/Linux環境で標準的
日本語処理に適している
サーバーサイドでよく使用
可変長エンコーディング

使用場面

Linux/Unixサーバー環境
レガシーWebシステム
メールサーバー（古い設定）
日本語データベースシステム

推奨度: ★★☆☆☆ - レガシーシステム対応時のみ

文字化けの診断方法

文字化けの種類から、元の文字コードと対処法を特定できます。

UTF-8 → Shift-JIS で読み込んだ場合

症状例:

正常: こんにちは

文字化け: 縺薙ｓ縺ｫ縺｡縺ｯ

対処法: UTF-8で再度開く

Shift-JIS → UTF-8 で読み込んだ場合

症状例:

正常: こんにちは

文字化け: ????????

対処法: Shift-JISで再度開く

EUC-JP関連の文字化け

症状例:

正常: こんにちは

文字化け: ¤³¤ó¤Ë¤Á¤Ï

対処法: EUC-JPで再度開く

文字コードの確認方法

方法1: ファイルのプロパティで確認

Windows

メモ帳でファイルを開く
「ファイル」→ 「名前を付けて保存」
「文字コード」欄を確認

Mac

テキストエディットでファイルを開く
「フォーマット」→ 「テキストエンコーディングを変更」
現在の設定を確認

方法2: コマンドラインツール

Unix/Linux/Mac

file -I filename.csv # 出力例: filename.csv: text/plain; charset=utf-8

方法3: オンラインツール・エディタ

VS Code: 右下のステータスバーに表示
Sublime Text: View → Show Console → view.encoding()
オンライン文字コード判定ツール
CSVツールキットの自動判別機能

文字コード変換の方法

Windows環境

メモ帳

ファイルを開く
「名前を付けて保存」
文字コードを選択して保存

PowerShell

Get-Content input.csv | Out-File -Encoding utf8 output.csv

Mac/Linux環境

iconv コマンド

iconv -f shift-jis -t utf-8 input.csv > output.csv

nkf コマンド

nkf -w input.csv > output.csv

CSVツールキットでの変換（推奨）

文字化けしたCSVファイルをアップロード
「日本語クリーニング」タブを選択
「文字コード自動判別」を有効にする
「クリーニング実行」で自動変換
UTF-8形式でダウンロード

✅ ブラウザ上で安全に処理、複数文字コードの自動判別対応

トラブルシューティング

よくある問題と解決策

Q: Excelで開くと必ず文字化けする

原因: ExcelがUTF-8ファイルをShift-JISとして読み込んでいる

解決策:

「データ」→「外部データの取得」でUTF-8を指定
ファイルをUTF-8 BOM付きで保存
Power Queryを使用してインポート

Q: 部分的に文字化けが発生する

原因: ファイル内で複数の文字コードが混在

解決策:

CSVツールキットの自動判別機能を使用
データの出所を確認し、適切な文字コードで統一
テキストエディタで手動修正

Q: Webで表示すると文字化けする

原因: HTMLのCharsetと実際の文字コードが不一致

解決策:

ファイルをUTF-8で保存し直す
HTMLのmeta charsetを確認
サーバーのContent-Typeヘッダーを確認

推奨される運用方法

文字コード運用のベストプラクティス

1. 新規プロジェクト

必ずUTF-8を採用。将来の拡張性と国際化対応を考慮。

2. 既存システム

段階的にUTF-8へ移行。まずは新しいデータからUTF-8で統一。

3. データ交換

相手先のシステムに合わせた文字コードで提供。事前確認必須。

4. ドキュメント

使用する文字コードを明記し、チーム全体で共有。

文字コード選択の指針

用途	推奨文字コード	理由
Webアプリケーション	UTF-8	W3C標準、国際対応
Excel連携（日本語のみ）	Shift-JIS	Excel日本語版標準
レガシーサーバー	EUC-JP	既存システム互換性
API・データ交換	UTF-8	標準的、効率的

文字コード解説

文字コードとは

なぜ複数の文字コードが存在するのか？

文字化けが起こる仕組み

主要な文字コード

UTF-8（Unicode Transformation Format 8-bit）

特徴

使用場面

Shift-JIS（シフトJIS）

特徴

使用場面

EUC-JP（Extended Unix Code）

特徴

使用場面

文字化けの診断方法

UTF-8 → Shift-JIS で読み込んだ場合

Shift-JIS → UTF-8 で読み込んだ場合

EUC-JP関連の文字化け

文字コードの確認方法

方法1: ファイルのプロパティで確認

Windows

Mac

方法2: コマンドラインツール

Unix/Linux/Mac

方法3: オンラインツール・エディタ

文字コード変換の方法

Windows環境

メモ帳

PowerShell

Mac/Linux環境

iconv コマンド

nkf コマンド

CSVツールキットでの変換（推奨）

トラブルシューティング

よくある問題と解決策

Q: Excelで開くと必ず文字化けする

Q: 部分的に文字化けが発生する

Q: Webで表示すると文字化けする

推奨される運用方法

文字コード運用のベストプラクティス

1. 新規プロジェクト

2. 既存システム

3. データ交換

4. ドキュメント

文字コード選択の指針

関連リソース

CSV基礎知識

Excel活用術

データクリーニング

日本語クリーニング