in the blue

文字コード自動判別の個人的なメモ

Published On: 1970-01-01|Last Updated: 1970-01-01|Categories: Uncategorized|

流れはこんな感じだった。

BOM チェックで Unicode を判別
chardet などでエンコーディングを推定
1. UTF/MBCS ならデコード試行
ユーザーロケールのエンコーディングでデコード試行
chardet などでエンコーディングを推定
1. 非 UTF/MBCS ならデコード試行
結果が UTF/MBCS なら次の判別で優先的に試行する

問題点:

ユーザー情報がないとかなりどうしようもない
判別が成功したかどうか判別できない
- 間違ったエンコーディングでもデコード出来ることは多い
既に化けているデータには手も足も出ない
chardet などの自動判別では SBCS の判別は不可能に近い
MBCS 非対応ソフトは MBCS の lead byte でぶった切ることがある

エンコーディングの採用基準:

最近のフォーマット・仕様は UTF-8 が多い
- UTF-8 じゃなかったら逃げ出した方が楽
国際化を少しでも考えているものはなんらかの UTF を使っている
昔のは OS (Windows) の標準エンコーディングをそのまま使っている。コードページくらい埋め込め

コメント

Leave A Comment コメントをキャンセル

関連

Adobe XD
Published On: 2022-03-14 | Categories: Uncategorized |
簡単に触ってみた印象 […]
Ubuntu 20.04 on Lenovo H505s
Published On: 2021-04-30 | Categories: Device, Linux, Network device, PC, Ubuntu, Uncategorized |
余っていた Leno […]
V55t-15ARE の写真
Published On: 2021-04-08 | Categories: Uncategorized |
CSM (MBR か […]
ライブラリーとフレームワーク
Published On: 2021-01-17 | Categories: Uncategorized |
jQuery はフレ […]