WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。
1.包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。 2.提供爬虫控制管理界面,可实时监控抓取状态,动态添加抓取任务,动态配置定时任务,可对单个网页进行测试抓取。 3.提供抓取各阶段的触发器、拦截器,方便扩展。
控制台部分截图:
使用:
1.查看目标网站的页面特征,在xml中配置所需抓取内容。 2.在控制台添加一个抓取任务,将xml配置提交。 3.对单个网页测试或整个任务执行测试。 4.在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据 5.设置定时任务。