Apache Solr搜索引擎基础知识


搜索引擎是指庞大的互联网资源数据库,如网页,新闻组,程序,图像等。它有助于在万维网上查找信息。

用户可以通过以关键字或短语的形式将查询传递到搜索引擎来搜索信息。然后,搜索引擎在其数据库中搜索并返回给用户的相关链接。

谷歌搜索

搜索引擎组件

通常,搜索引擎有三个基本组件,如下所示 -

  • Web Crawler - 网络爬虫也被称为 蜘蛛机器人 。它是一个遍历Web以收集信息的软件组件。

  • Database - Web上的所有信息都存储在数据库中。 它们包含大量的Web资源。

  • Search Interfaces - 该组件是用户和数据库之间的接口。 它可以帮助用户搜索数据库。

搜索引擎如何工作?

需要任何搜索应用程序来执行以下部分或全部操作。

序号 标题 描述

1

Acquire Raw Content

任何搜索应用程序的第一步是收集要进行搜索的目标内容。

2

Build the document

下一步是从原始内容构建文档,搜索应用程序可以轻松理解和解释。

3

Analyze the document

在开始索引之前,要分析文档。

4

Indexing the document

一旦构建和分析了文档,下一步就是索引它们,以便可以基于某些键而不是文档的全部内容来检索该文档。

索引类似于我们在书籍末尾的索引,其中显示了常用词及其页码,以便可以快速跟踪这些词,而不是搜索完整的书。

5

User Interface for Search

一旦索引数据库准备就绪,应用程序就可以执行搜索操作。为了帮助用户进行搜索,应用程序必须提供用户界面,用户可以在其中输入文本并启动搜索过程

6

Build Query

一旦用户发出搜索文本的请求,应用程序就应该使用该文本准备一个查询对象,然后可以使用该文本查询索引数据库以获取相关详细信息。

7

Search Query

使用查询对象,检查索引数据库以获取相关详细信息和内容文档。

8

Render Results

收到所需结果后,应用程序应决定如何使用其用户界面向用户显示结果。

请看下面的插图。它显示了搜索引擎如何运作的整体视图。

搜索引擎

除了这些基本操作之外,搜索应用程序还可以提供管理用户界面,以帮助管理员根据用户配置文件控制搜索级别。搜索结果的分析是任何搜索应用程序的另一个重要和高级方面。