小编典典

如何在Perl中从HTML提取URL和链接文本?

html

我以前曾问过如何在Groovy中做到这一点。但是,由于所有CPAN库,现在我要在Perl中重写我的应用程序。

如果页面包含以下链接:

<a href="http://www.google.com"> Google </a>

<a href="http://www.apple.com"> Apple </a>

输出为:

Google,http://www.google.com
苹果公司,http://www.apple.com

在Perl中执行此操作的最佳方法是什么?


阅读 354

收藏
2020-05-10

共1个答案

小编典典

请查看使用WWW :: Mechanize模块来实现此目的。它将为您获取您的网页,然后为您提供易于使用的URL列表。

my $mech = WWW::Mechanize->new();
$mech->get( $some_url );
my @links = $mech->links();
for my $link ( @links ) {
    printf "%s, %s\n", $link->text, $link->url;
}

非常简单,如果您要导航到该页面上的其他URL,则更加简单。

机械基本上是对象中的浏览器。

2020-05-10