Bulknews::Subtech RSSフィード

2006/09/24 (日)

CSS selector to XPath 18:15  CSS selector to XPath - Bulknews::Subtech を含むブックマーク はてなブックマーク -  CSS selector to XPath - Bulknews::Subtech

ruby のスクレイピングツールキット scrAPI - 2nd life で紹介されてる scrAPI がいい感じ。microformats に対応した Scraper とか、Plagger っぽい発想で気に入ったです。

CSS selector で抽出かけるのは Plagger にもほしいかも、というわけで Perl での実装を軽く調査

scrAPI のライブラリ html/selector.rb は比較的わかりやすいコードなので Perl にポートするのは(メンドウだけど)簡単にできそう。

CSS 2 Selector は XPath のサブセットにすぎないんだから、XPath に変換してしまえばいいんじゃ、というアイデアもあり、ググったところ no title (JavaScript の変換コードあり), それからコメントで How to map CSS selectors to XPath queries // plasmasturm.org というのをつくってくれた。

HTML::Selector::XPath で XPath 変換をつくって、HTML::TreeBuilder::XPath のラッパー書いたり、Pure Perl で html/selector.rb かいて HTML::Tree か XML::LibXML の DOM なめる感じでできそうですね。