情報抽出方法の質問

情報抽出方法の質問

日時： 2007/03/02 18:25
名前： 41: 新着情報のhtmlファイルをrss配信するために情報抽出していますが、取り込めません。

にしし様のプロ顔負けのホームページ作成の本の中でサンプルhtmlファイルのどれかをrss配信するために抽出する方法を教えてください。

できれば、本の中の最初の簡単なサンプルがいいです。
1週間ぐらい悩んでおります。初歩的なことですみませんがお願いいたします。

Page: 1 |

Re: 情報抽出方法の質問 ( No.1 )

日時： 2007/03/02 23:41
名前： にしし

41さん、どうもです。

うまく情報を抽出するためには、「サイト設定」の「情報抽出方法」欄を、ご自身のウェブページに合うように設定して頂く必要があります。
http://www.nishishi.com/soft/rssmaker/manual/siteset.html#extract

とりあえず、「概要」・「内容」の取得先を「body」にしてみると、HTML内のすべての文字が取得できるはずです。それでは全然概要にならないので(^_^;)、そこからうまく望みの情報が取れるように、41さんが作成されたHTMLに合わせて、要素名を検討したり範囲を絞ってみて下さい。

なお、このソフトは、HDD内のファイルリストを更新時刻順に並べて、指定された個数のファイルの中身を順番に解析して情報を取得していきます。
なので、最新の更新情報をまとめて掲載した「新着情報ページ」のようなHTMLから、サイトの更新情報が取得できるわけではないのでご注意下さい。（更新情報ページ自体が更新されていれば、その「更新情報ページが更新された」という事実は認識しますから、そのページの情報は取得しますが。^^;;;）

Re: 情報抽出方法の質問 ( No.2 )

日時： 2007/03/03 00:33
名前： 41

にしし様　ありがとうございます。

何度も抽出条件を変えてしているのですが・・・うまくいきません。がんばってみます。
どうしても「概要」「内容」部分がうまくいきません。<item><link><pubDate>に内容が分かれません。
全て[CDATA内に表示されてしまいます。
通常<pubDate>に日付が表示されますが、これって自動で表示されるのですか？

Re: 情報抽出方法の質問 ( No.3 )

日時： 2007/03/03 01:24
名前： にしし

41さん、どうもです。

いまいちどんな感じの生成になってしまっているのかが分からないのですが、もしよろしければどんなRSSが生成されているのか、問題の箇所だけで構いませんので教えて頂けないでしょうか。

プログラムの内容からして、<pubDate>～</pubDate>に日付が入らない可能性が考えにくいのですが、入ってないですか？

Re: 情報抽出方法の質問 ( No.4 )

日時： 2007/03/03 18:39
名前： 41

にしし様　ありがとうございます。

htmlファイルです。↓
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML lang="ja">
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<META http-equiv="Content-Style-Type" content="text/css">
<TITLE>rss配信</TITLE>
<meta name="keywords" content="あいうえお">
<meta name="description" content="新着情報お届け">
</HEAD>
<BODY>
<a href="http://www.xxxxxx">新着情報1</a>
<a href="http://www.xxxxxx">新着情報2</a>
</BODY>
</HTML>

指定要素1はtitle、概要と内容はbodyにした結果です。↓

<item>
<title>rss配信</title>
<link>http://www.xxxxxx/rss01.html</link>
<guid isPermaLink="true">http://www.xxxxxx/rss01.html</guid>
<category>店舗名</category>
<pubDate>Fri, 2 Mar 2007 17:42:42 +0900</pubDate>
<description><![CDATA[新着情報お届け]]></description>
<content:encoded><![CDATA[<a href="http://www.xxxxxx">新着情報1</a>
<a href="http://www.xxxxxx">新着情報2</a>
]]></content:encoded>
</item>

</channel>
</rss>

Re: 情報抽出方法の質問 ( No.5 )

日時： 2007/03/03 21:36
名前： にしし

41さん、どうもです。

生成されたRSSを見たところ、問題なく生成できているように思えるのですが、どんな問題があるのでしょうか？

<link>にはURLが入っているようですし、<pubDate>にはそのファイルの更新日時が入っていますよね？
概要（description）は、おそらく「meta要素から取得」するように設定されているのだと思いますが、だとすればうまく取得できていますよね。
内容（content）をbody要素から取得するよう設定されたなら、body要素のすべてが正しく取得できているように見えるのですが…。

どのような点がお望みの内容と異なりますか？

なお、最初の返信にも書いたことですが、もしかして誤解されているかも知れないので念のために書いておきますが、「RSSにしたい情報をまとめて書いたHTMLからRSSを生成」するわけではない点にご注意下さい。

ウェブサイトを構成するHTMLファイル群（※初期設定ではHTMLに限りませんが）すべてを走査して、指定数の（最近に更新された）ファイルから情報を抽出します。

RSSに含めたいと思う情報を書いたHTMLを作る必要はありません。ウェブサイトを構成するHTMLが含まれるフォルダ名さえ指定しておけば、このソフトが勝手に更新されたファイルを見つけて、勝手に中身を読んで、RSSを生成します。

Re: 情報抽出方法の質問 ( No.6 )

日時： 2007/03/04 00:07
名前： 41

にしし様、ありがとうございます。

誤解してました。
上記のHTMLファイルに新着情報3を加えてrssファイルを作成した下記のようになると考えていました。

<title>新着情報3</title>
<link>http://www.xxxxxx/rss01.html</link>
<pubDate>Fri, 3 Mar 2007 17:42:42 +0900</pubDate>
<title>新着情報1</title>
<link>http://www.xxxxxx/rss01.html</link>
<pubDate>Fri, 2 Mar 2007 17:42:42 +0900</pubDate>
<title>新着情報2</title>
<link>http://www.xxxxxx/rss01.html</link>
<pubDate>Fri, 2 Mar 2007 17:42:42 +0900</pubDate>

実際上記のようにrssファイルを作成する場合は、新着情報1、2、3のファイルを作成する必要があるのでしょうか。それとも1つのHTMLファイルで作成可能でしょうか？そもそもこれが、誤解なのでしょうか・・何度もすみません・・

別件ですが、先程まで内容にふくまれていたところが抽出されなくなりました。
生成画面ウインドウの右情報の内容欄には表示されているのですが、生成ファイルには抽出されていません。なんでだろう・・

Re: 情報抽出方法の質問 ( No.7 )

日時： 2007/03/04 11:00
名前： にしし

41さん、どうもです。

このソフトの意味は、「ウェブを構成するファイル群から自動的に更新情報（RSS）を生成する」というものです。

ですから、「RSSのためにHTMLを作る」のでは本末転倒です。「既にあるHTML群からRSSを作る」からこそ役に立つわけで…。

41さんの作成されたいRSSに含まれる「更新情報1～3」というファイルは、実際に存在するHTMLではないのでしょうか？
実在しないページの情報をRSSにしても、あまりRSSとして機能しないような気がします…。

> それとも1つのHTMLファイルで作成可能でしょうか？

1つのHTMLは、必ず1つのitem要素（RSS内の1項目）にしかなりません。
なぜなら、1つのitem要素で1つのURLを示すからです。
ですから、1つのHTMLから生成されるitem要素（RSS項目）は1つです。

41さんが示されたRSSの例で、「新着情報1～3」がすべて同一のHTMLを指しているのだとしたら、RSSの用途としてあまり意味がないような気がします。1つのページについての情報は1つのitemで示せばいいわけですから…。

いかがなものでしょうか？

なお、それでも例のようなRSSを生成されたい場合で「Fumy RSS ＆ Atom Maker」を使う場合は、実際にHTMLを作るか、もしくはダミーのHTMLに対して「固定追加ページ」を複数登録するしかありません。
…が、そういう（実在しないファイルへの）RSSを作成されたいなら、RSSを1から手動で書けるフリーソフトを使われる方が楽だと思います。

（このソフトは、そういう「すべて手動で書かなければならない」ソフトでは面倒だから、「すべて自動でやってしまおう」という意図で作ったソフトですから…。）

Re: 情報抽出方法の質問 ( No.8 )

日時： 2007/03/04 12:34
名前： 41

にしし様、ありがとうございます。

勉強になりました。「Fumy RSS ＆ Atom Maker」活用させていただきます。

ご多忙の中、ご回答いただき、誠にありがとうございました。

Page: 1 |

Fumy RSS & Atom Maker