WebPasser - 开源爬虫框架


MIT
跨平台
Java

软件简介

WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。

1.包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。
2.提供爬虫控制管理界面,可实时监控抓取状态,动态添加抓取任务,动态配置定时任务,可对单个网页进行测试抓取。
3.提供抓取各阶段的触发器、拦截器,方便扩展。

控制台部分截图:

使用:

1.查看目标网站的页面特征,在xml中配置所需抓取内容。
2.在控制台添加一个抓取任务,将xml配置提交。
3.对单个网页测试或整个任务执行测试。
4.在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据
5.设置定时任务。