GECCO - 易用的轻量化的网络爬虫


MIT
跨平台
Java

软件简介

Gecco是什么

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时Gecco基于十分开放的MIT开源协议,无论你是使用者还是希望共同完善Gecco的开发者,欢迎pull
request。如果你喜欢这款爬虫框架请star 或者 fork!

参考手册

主要特征

  • 简单易用,使用jquery风格的选择器抽取元素

  • 支持页面中的异步ajax请求

  • 支持页面中的javascript变量抽取

  • 利用Redis实现分布式抓取,参考gecco-redis

  • 支持结合Spring开发业务逻辑,参考gecco-spring

  • 支持htmlunit扩展,参考gecco-htmlunit

  • 支持插件扩展机制

  • 支持下载时UserAgent随机选取

  • 支持下载代理服务器随机选取