小文本有效搜索

小编典典

小文本有效搜索

java

我有很多小文本（说大约500个单词）和两个数据库，每个数据库大约有10.000个条目（关键字）。

现在，我想处理每个文本，并找出文本中包含哪些关键字（保存在2个数据库中的关键字）。

你们中的某人是否有有效地做到这一点的好方法？

我想对每个文本进行处理并对其进行索引（也许使用lucene），然后再针对它搜索数据库，但是我真的不知道lucene是否是正确的工具。

阅读 320

收藏

2020-11-30

共1个答案

小编典典

Lucene正是完成此任务的正确工具。

实现目标的一种方法是使用RAMDirectory为每个文本建立索引，然后使用IndexReader从索引中获取TermEnum。现在，您可以将术语与数据库中的关键字进行匹配。

另一种方法是将每个文本索引为lucene文档，然后遍历您的关键字并获得当前术语的termDocs =>包含当前术语/关键字的所有文本。

2020-11-30