にしし ふぁくとりー:西村文宏 個人サイト

Presented by Nishishi via Movable Type. Last Updated: 2022/03/25. 10:41:11.

文字コードの判別って難しいねえ…

文字コードの判定について。
判定したい対象のテキストファイルを読み込んで、

  • BE = EUCコードには絶対出現しないコードが出現した数
  • BS = SHIFT-JISコードには絶対出現しないコードが出現した数
  • ML = 判定に使用する長さ(Max Length)

を、まず出す。MLは、とりあえず2048固定。(=2KB)
んで、エラー(その文字コードで絶対出現しないはずのコードが出現した数)の判定基準を次の通りとする。

  • エラー多すぎ: >ML×25%+10 (エラーが25%(+10)以上の場合)
  • エラーなし : <ML×0.1%+1 (エラーが0.1%(+1)以下の場合)

+10とか+1というのは、判定に使用する長さが非常に短いテキストが対象になった場合の対策。10とか1とかの値に根拠はないんだけど。

で、上記の数値を使って、文字コードを判別するための条件を以下のようにしました。

◆BEのエラー多すぎ and BSのエラー多すぎ → バイナリ
◆BEのエラー数 > BSのエラー数 → SHIFT-JIS
◆BEのエラー数 < BSのエラー数 → EUC
◆BEのエラーなし and BSのエラーなし → ASCII
◆BEのエラー数 = BSのエラー数 → Unknown (or JIS)

判別したいコードが SHIFT-JIS と EUC だけの場合、これで充分なんですが、ここで、UTF-8 が出てくると難しくなります。
んで、以下の条件を加えます。

◆(BEのエラー数が全体の3%を超えている) and (BSのエラー数が全体の1.5%を超えている) and (BEのエラー数 > BSのエラー数) → UTF-8

私の実験環境で用意した150個のファイルでは、この条件でうまく判別できたんですが…。

果たしてこの条件でどんなファイルでも正しく判別できるのかどうか…。(^^;;;
むむう。
文字コードの判別って難しいねえ…。

UTF-8ファイルの先頭に、必ずBOM(Byte Order Mark)が付加されてれば、間違いなく判別できるんだけどなあ。

なんかもっといい判別方法ないでしょうか。^^;

コメント

コメント数: 0件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※ご投稿頂いた内容は、掲載前に管理者が確認する設定にしている場合があります。たいていは数日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

著者紹介


にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊+小説1冊)。著書や記事は「西村文宏」名義。記事は主にAll Aboutで連載。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

Twitter:にしし/西村文宏
にしし/西村文宏 on facebook にしし/西村文宏 on mixi フォローはお気軽に!

にしし(西村文宏)連絡先
☕ コーヒーをおごる

著書一覧と詳細

にししふぁくとりー Sakura scope内限定での主要なカテゴリ

--- 当サイト内を検索 ---