Bulknews::Subtech RSSフィード

2007/05/10 (木)

Web::Scraper 勝手に添削 19:56  Web::Scraper 勝手に添削 - Bulknews::Subtech を含むブックマーク はてなブックマーク -  Web::Scraper 勝手に添削 - Bulknews::Subtech

http://d.hatena.ne.jp/fbis/20070510/1178783909

コールバックを使って書けば、後ろのループはいらないっす。

use strict;
use warnings;
use Web::Scraper;
use Encode;
use URI;
use URI::Find;
use YAML;

my $url = 'http://b.hatena.ne.jp/entry/http://www.aoky.net/articles/jeff_atwood/why_cant_programmers_program.htm';

my $comments = scraper {
    process 'span.comment', 'comment[]' => sub {
        my $text = $_->as_text or return;
        URI::Find->new(sub { '' })->find(\$text);
        return $text =~ /[\s\x20-\x7e]{30}/ ? $text : ();
    };
    result 'comment';
}->scrape(URI->new($url));

warn Dump $comments;