CrawlZilla - Web爬虫程序


Apache License 2
Linux
Java

软件简介

CrawlZilla

  • crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題
  • 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。
  • crawlzilla 除了爬取基本的 html 檔外,還能分析網頁上的檔案,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜尋引擎不只是網頁搜尋引擎,而是網站的完整資料索引庫
  • 擁有中文分詞能力,讓你的搜尋更精準
  • crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜尋平台,詳細可以看這裡
  • crawlzilla 使用 apache license 2.0 授權,有興趣的使用者可下載其原始碼來修改符合自己需求的自由或商業搜尋引擎