19時35分00秒 [ソフト開発]
日本語で使われる文字コード
・JIS
・SHIFT-JIS
・EUC
・UTF-8
これらの判別って、かなり難しいのねえ…。^^;;;
JISコードには独特のエスケープ文字があるので判別はほぼ確実に可能でしょう。SHIFT-JISかEUCかというのも、SHIFT-JISであると解釈した場合とEUCであると解釈した場合とでエラー数を比較すれば、わりと確実にできます。
問題は、SHIFT-JISかUTF-8か、という判別。
これ、使ってるコードがかぶってるし、機械的にどっちか判別するのってかなり難しそうなんだけど。
一般のエディタとかブラウザとかは、どうやって判別してんだ?
UTF-8に、Unicodeの頭3バイトにあるBOM(Byte Order Mark)がありゃいいだろうけど、BOMは付けなくてもいいから、必ずしもあるとは限らないしなあ。
この日記へのコメントはお気軽に! コメント数:0件
コメント数: 0件