Lucene分析 Lucene MatchAllDocsQuery类 Lucene Token Lucene分析 正如我们已经看到在前一章的Lucene索引过程,Lucene使用IndexWriterwhich分析用分析仪文件,然后根据需要创建/打开/编辑索引。在本章中,我们将讨论不同类型的分析对象,哪些是在分析过程中使用的相关对象。了解分析过程中,分析仪如何工作,会给Lucene索引文件很大的启示。 以下是我们将在适当的时候讨论对象的列表。 Sr. No. 类和说明 1 Token 令牌表示(起始偏移量,结束偏移,令牌类型和位置增量位置,)在像它的元数据相关的详细信息的文档中的文本或字。 2 TokenStream TokenStream是分析过程中的一个输出,它包括串联的令牌。它是一个抽象类。 3 Analyzer 这是对每个类型分析器的抽象基类。 4 WhitespaceAnalyzer 该分析仪analyzer分割的基础的空白文档中的文本。 5 SimpleAnalyzer 此分析器分割在基于非字母字符的文档的文本,然后小写它们。 6 StopAnalyzer 该分析仪的工作原理类似于SimpleAnalyzer并删除常用词像 'a','an','the'等等。 7 StandardAnalyzer 这是最复杂的分析,并能处理姓名,电子邮件地址等,它小写每个标记,并删除常用词和标点符号(如有)。 Lucene MatchAllDocsQuery类 Lucene Token