Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。
最新提示:* 欢迎来体验最新版本Spiderman2, **http://git.oschina.net/l-weiwei/Spiderman2** 重新打造,重新起步,努力做更好用的爬虫!*
主要特点
* 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。 * 通过简单的配置就可以将复杂的网页内容解析为自己需要的业务数据,无需编写一句代码 * 多线程
怎么使用?
这里有个抓取案例
这里有篇文章介绍示例: http://my.oschina.net/laiweiwei/blog/100866
XPath获取技巧?
最新提示:发现Chrome浏览器的控制台可以直接对网页执行xpath调试,只需要输入$x(“xpath 表达式”)即可实时进行当前打开网页的xpath调试,非常棒!
这里只说下Chrome浏览器,其他浏览器估计也差不多,只不过插件不同而已。