小编典典

小文本有效搜索

java

我有很多小文本(说大约500个单词)和两个数据库,每个数据库大约有10.000个条目(关键字)。

现在,我想处理每个文本,并找出文本中包含哪些关键字(保存在2个数据库中的关键字)。

你们中的某人是否有有效地做到这一点的好方法?

我想对每个文本进行处理并对其进行索引(也许使用lucene),然后再针对它搜索数据库,但是我真的不知道lucene是否是正确的工具。


阅读 320

收藏
2020-11-30

共1个答案

小编典典

Lucene正是完成此任务的正确工具。

实现目标的一种方法是使用RAMDirectory为每个文本建立索引,然后使用IndexReader从索引中获取TermEnum。现在,您可以将术语与数据库中的关键字进行匹配。

另一种方法是将每个文本索引为lucene文档,然后遍历您的关键字并获得当前术语的termDocs =>包含当前术语/关键字的所有文本。

2020-11-30