文字コード

文字コード

日時： 2007/11/06 22:35
名前： Motty
参照： http://www.shibaura-it.ac.jp/itabashi/: 大変お世話になっております。
本題の文字コード変換についてお伺いです。
私が作成しているWebサイトはすべてUTF-8なのですがRSS2.0変換ボタンを押すと、どういうわけかHTMLファイルがJISやEUCと自動認識されてしまいます。そこで、強制的にUTF-8コードで読むようにサイト設定（ローカルもサーバーもUTF-8の設定）を行ったのですが、これもまた同様の結果となりうまく動作してくれません。ファイルによってはUTF-8と認識してくれるものもあるのですが、多くのHTMLファイルはご変換されてしまいRSS配信にてタイトルなどがバグってしまいます。
他のどの設定を変えるとうまくいくのかを教えていただければと思います。

Page: 1 |

Re: 文字コード ( No.1 )

日時： 2007/11/07 00:10
名前： にしし

Mottyさん、どうもです。

> すべてUTF-8なのですが (中略)
> JISやEUCと自動認識されてしまいます。

ああー、とうとうそういう事例が出てきてしまいましたか。^^;;;
文字コードの自動判別処理部分は、かなり手探りな状態でして、ファイルの先頭部分の文字列を読むだけで判別しています。なので、HTMLの書き方によっては確実に判別を誤ってしまう可能性があります。

おそらく、Mottyさんの書かれているHTMLが、その誤判別条件に合致してしまっているのだと思います。

で、現行バージョンでは（ソフトウェア側の設定を用いて）その問題を解決する方法がありません。
現行バージョンでは、ローカルの文字コードを固定するように指定していても、自動判別を行ってしまっているのです。(^_^;;;

今まで、文字コード判別での問題報告がほとんどなかったものですから、大丈夫なのかな？と思ってあまり文字コード周りのコードはさわってこなかったんです。

次回のバージョンアップで、強制指定を解釈するようにしたいと思います。

現状でなんとかするには……、HTMLの先頭付近にUTF-8でしかあり得ないコードになる文字列をたくさん含ませれば、自動判別がうまくいくかも知れませんが、うまくいかないかも知れません。^^;;;
そもそも、ローカルのファイルを修正するのは現実的ではありませんよね。

今月、時間が取れればなんとか次期バージョンを出したいと思っています。

Re: 文字コード ( No.2 )

日時： 2007/11/07 17:47
名前： Motty
参照： http://www.shibaura-it.ac.jp/itabashi/

早速の対応に感謝いたします。
ローカルの方でもいろいろ試してみて、EUCは「京」とか「首」とかは知っていたのですが、UTF特有の文字というのがちょっとわからなくてうまくいきませんでした。
是非とも次期バージョンに期待したいと思います。

Re: 文字コード ( No.3 )

日時： 2007/12/19 13:42
名前： Motty
参照： http://www.shibaura-it.ac.jp/itabashi/

試行錯誤の末
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

という全ファイルの初めの部分を削除することでうまく認識されるようになりました。
ご報告までにご連絡差し上げます。

Re: 文字コード ( No.4 )

日時： 2008/01/08 21:52
名前： にしし

Mottyさん、どうもです。
返信が遅くなって申し訳ありません。
また、ご報告をどうもありがとうございます。

> 全ファイルの初めの部分を削除することでうまく認識されるようになりました。

なるほど。DOCTYPE宣言を削除するとうまくいきましたか……。
ただ、Fumy RSS & Atom Makerでは特にDOCTYPE宣言の内容は解読していません。ですから、DOCTYPE宣言を削除することでうまくいったというのは、『ファイル中で（文字コードの判別に役立たない）アスキー文字部分をごっそり削除したために文字コードが判別しやすくなった』結果のような気がします。

さて、先ほど Ver 0.94βを公開しましたが、このバージョンではまだこの問題に対処できていません。（ごめんなさい）
次のバージョンではなんとかしたいと思います。m(_ _)m

Re: 文字コード ( No.5 )

日時： 2008/01/15 18:55
名前： Motty
参照： http://www.shibaura-it.ac.jp/itabashi/

うまく文字コードを認識しないHTMLファイルの文字コードを
UTF-8NからUTF-8というようにBOMの有無で正常に解釈することがありましたので、ご報告します。ただ、すべてがというわけではありませんでした。
是非とも次回の公開に期待したいと思います。

Re: 文字コード ( No.6 )

日時： 2008/01/28 22:57
名前： にしし

Mottyさん、どうもです。

先ほど公開したVer 0.95βで、文字コードの強制指定機能を搭載しました。
「サイト設定」ウインドウの「ファイル・フォルダ」項目で、「ローカル文字コード」を「自動判別」以外に設定すれば、自動判別を行わずに指定された文字コードであると解釈して解析を行うようになります。
ご活用下さい。

-----
> BOMの有無で正常に解釈することがありましたので、

そうでした。
そういえば、BOMの有無も文字コードの判定に使っています。先頭にBOMがあればUTF-8だと認識できると思います。
……が、例外もありましたか？

ううーん。文字コードの判別部分では、最初にBOMが存在すればそれ以降の検査は行わずに問答無用でUTF-8だと解釈するように作っていたつもりなのですが、どこかに不具合があるのかも知れませんね……。

とりあえず、文字コードの強制指定をサポートしましたので、試してみて下さい。

Re: 文字コード ( No.7 )

日時： 2008/01/31 15:14
名前： Motty
参照： http://www.shibaura-it.ac.jp/itabashi/

対応ありがとうございました。
待ちに待っていた甲斐がありました。
また今後のご活躍を期待しております。

Re: 文字コード ( No.8 )

日時： 2009/11/14 02:12
名前： ino
参照： http://www.j-love.info/ino/blog/

同じく文字コードで恐らくはまってしまったのでこのスレッドに書き込ませていただきます。

RSSの出力ボタンを押すと、
ログの画面に　文字コード: EUC-jp [E:0/S:318]
という表示が出た後、ソフトが強制終了されてしまいます。
作業中の該当htmlの文字コードをshift-jisなどに
変換してみたところ、問題なく通りました。

同一フォルダ内にEUCとUTF-8のファイルが混在していて、都合上統一出来ないため設定も出来ず、
困っております。。

Re: 文字コード ( No.9 )

日時： 2009/11/14 02:23
名前： ino
参照： http://www.j-love.info/ino/blog/

すみません、自己解決してしまいました。

こちらのソフトを使用し
http://www.kashim.com/kanjitranslator/index.html
文字コードをUTF-8に統一したところ解決しました。

Page: 1 |