教程
问答
博客
Python源码
Java源码
开源
论坛
教程
问答
博客
Python源码
Java源码
开源
论坛
登录
注册
开源软件
开发工具
网络爬虫
CrawlZilla
CrawlZilla
- Web爬虫程序
网络爬虫
授权协议:
Apache License 2
操作系统:
Linux
开发语言:
Java
软件简介
crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題
由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。
crawlzilla 除了爬取基本的 html 檔外,還能分析網頁上的檔案,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜尋引擎不只是網頁搜尋引擎,而是網站的完整資料索引庫
擁有中文分詞能力,讓你的搜尋更精準
crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜尋平台,
詳細可以看這裡
。
crawlzilla 使用 apache license 2.0 授權,有興趣的使用者可下載其原始碼來修改符合自己需求的自由或商業搜尋引擎
软件首页