Hawk - 搜索引擎平台


GPLv2
跨平台
Java

软件简介

Hawk
搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的网站信
息的桌面搜索等应用领域。它改造自LuceneHadoop Nutch
系统,是纯Java的搜索平台软件,可以运行于Windows及Linux等平 台,具备基本的抓取、索引和检索功能。

主要特点:

  • 对网页进行深度抓取和分析,自定义抓取规则,实现站内搜索。
  • 可以索引各种常用类型文档,实现桌面文档检索。
  • 单 台PC服务器能索引上千万文档,可以用于中小型检索服务。
  • 可以自定义网页展示模板,或XML接口,轻松与各种系统整合。
  • 自 动分析网页文本,提取新词,如人名,地名等。
  • 支持检索词自动推荐以及繁简转换功能。
  • 可以定制主页的各项文字, 包括包含自己的欢迎网页。