03時41分52秒 [Web関連]
私がメンテナンスしているとある外国サイトのHTMLは、元々FrontPage(Microsoft製のウェブ作成ソフト)で作成されたらしいんですけど、meta要素で文字コードが「windows-1252」と書かれてるんですよね。
文字コード「windows-1252」って何だ?
…と思って調べてみたところ、どうやら、欧文(西欧)文字コードの標準である「ISO-8859-1」(Latin-1)の未定義部分に、いくつかの拡張文字を加えた文字コードらしいです。
例えば、ユーロ記号「€」は、ISO-8859-1では定義されてないのですけど、windows-1252にはあります。
なるほど、ユーロは新しい記号なので、ISO-8859とかで定義されてないんですね………と思ったら、ユーロ記号は、ISO-8859-15(Latin-9)では定義されているらしい…。
で、しかも、windows-1252でのユーロ記号のコードは「80」であるのに対して、ISO-8859-15でのユーロ記号のコードは「A4」。(^^;;;
配置的には、(ISO-8859-1では)「A2」がセント(¢)、「A3」がポンド(£)、「A5」が円(¥)になってるので、「A4」にユーロを入れる方が分かりやすい気はしますが。(ただそうすると、「A4」に元々定義されてる「¤」(通貨という意味らしい)を使いたいときに困りますが。つーか、こんな記号、誰か使うのか?^^;)
「windows-1252」という文字コードは、名前からしてWindows用フォントでないと正しく見えなさそうな気もしないでもないんですが。どうなんですかね?
まあ、「ISO-8859-1」で定義されてる文字はそのまんまのコードで存在しているので、「windows-1252」で増やされた文字を使わないなら、全く問題はないわけですが。
で、ですね。メンテナンスする上で、この文字コードはこのままでいいのかな…?と思ったりするわけです。
元々FrontPageで生成されたHTMLなので、文法的にも思想的にも(^^;)問題のある書き方になってるので、ずいぶん修正したんですが。文字コードはどうするかなと。
英語圏向けのページなので、まあ、ベースは「ISO-8859-1」でいいと思います。で、特にユーロ記号とか使ってるわけでもないので、別に「windows-1252」のまま放置しても問題はないのですけど。^^;
まあ、文字コードをUnicode(UTF-8)とかにしておけば、何にも問題はないわけですが。^^;
1から作り直す訳じゃないので、修正しなくていい箇所は修正しない方がいいかなとも思ったりして。Unicodeを読めないような古いブラウザ(Netscape3とか)を考えたとしても、英語の場合、最初の7ビット分(128文字)だけを使ってるなら、UTF-8でもISO-8859-1でも一緒なわけで、別に問題はないのですよね。日本語と違って。
まあ、私がメンテナンスしてるサイトは、8ビット目を使った位置にある文字も使っているので、そういうわけにもいきませんけど。
# いやでもまあ、Unicodeが読めないブラウザは、もう今では気にしなくていいと思いますけどね。^^;
ちなみに、このブログの文字コードは、UTF-8です。Netscape3では読めません。
ちなみ2、セント(¢)とかポンド(£)とかユーロ(€)は、文字実体参照を使って、「¢」とか「£」とか「€」とか書けば表現できます。
# IEで見るとユーロ記号「€」がすんごく小さいような…。FirefoxやOperaだと他と同じ大きさなんだけど。(@Windows)
ちなみ3、「windows-1252」みたいなコードとして、ギリシャ語系の「windows-1253」とか、アラビア語系の「windows-1256」とか、何かいろいろあるようです。^^;;;
この日記へのコメントはお気軽に! コメント数:2件
鈴夢さん、こんにちは。
OEだと「中央ヨーロッパ言語」ですか。Windows-1252みたいな表記を直接見かけることが(ほとんど)ないので、最初は何のことだかさっぱり分かりませんよね。^^;
投稿者 にしし : 2006年05月18日 01:12
コメント数: 2件
「Windows-1252」を使ったアダルト・スパムを受信。「Windows-1252」という文字コードを知らなかったので、検索エンジンで調べて、こちらを拝見。大変勉強になりました。以下、そのメールのヘッダの一部です。
-----
Received: from unknown (HELO gmail-smtp-in.l.google.com) (64.233.185.27)
by FAMILIA
with SMTP;
Thu, 12 Aug 2004 22:59:07 +0300
From: "Karina Ellis"
Subject: Karina and her friends nude
Date: Thu, 12 Aug 2004 22:59:07 +0300
X-Mailer: Microsoft Office Outlook, Build 11.0.5510
Content-Type: text/plain; charset="Windows-1252"
Content-Transfer-Encoding: 7bit
-----
「Outlook Express」だと、エンコード一覧に「中央ヨーロッパ言語(Windows)」と表示されていますが、それが「Windows-1252」なんですね。
投稿者 鈴夢 : 2006年05月17日 11:44