Anthelion 是 Nutch 插件,专注于爬取语义数据。
注意:此项目包括完整的 Nutch 1.6 版本,此插件放置在 /src/plugin/parse-anth
Anthelion 使用在线学习方法来基于页面上下文预测富数据 Web 页面,从之前查看的页面提取的元数据获取反馈。
主要有三个扩展:
AnthelionScoringFilter
WdcParser
TripleExtractor
示例: