小编典典

HTML抓取的选项?

html

我正在考虑尝试BeautifulSoup,一个用于HTML抓取的Python包。还有其他我应该查看的HTML抓包工具吗?Python不是必需的,我实际上也对其他语言感兴趣。

到目前为止的故事:

  • Python
  • Beautiful Soup
  • lxml
  • HTQL
  • Scrapy
  • Mechanize

  • Ruby

  • Nokogiri
  • Hpricot
  • Mechanize
  • scrAPI
  • scRUBYt!
  • wombat
  • Watir

  • .NET

  • Html Agility Pack
  • WatiN

  • Perl

  • WWW::Mechanize
  • Web-Scraper

  • Java

  • Tag Soup
  • HtmlUnit
  • Web-Harvest
  • jARVEST
  • jsoup
  • Jericho HTML Parser

  • JavaScript

  • request
  • cheerio
  • artoo
  • node-horseman
  • phantomjs

  • PHP

  • Goutte
  • htmlSQL
  • PHP Simple HTML DOM Parser
  • PHP Scraping with CURL
  • ScarletsQuery

  • Most of them

  • Screen-Scraper

阅读 382

收藏
2020-05-10

共1个答案

小编典典

在Ruby世界中,相当于BeautifulSoup的是why_the_lucky_stiff的Hpricot

2020-05-10