elasticsearch搜索引擎

时间 2020-07-06

原文原文链接

，什么事倒排序索引
elaticsearch是面向文档型的，将文档序列化未JSON形式，顺序缩影的过程是已知文档，查处文档中保航的字符串，从文件到字符串的映射，可是elaticsearch是已知字符串查找文档，即创建字符串和文档的映射，这种映射被称为倒排索引。算法

二，elasticsearch如何使用倒排序索引完成全文检索功能
1，建立索引：
1.1 已知文档，将文档交给分词器进行分词处理，分红一个一个档次，去除标点符号和停用词等
1.2 将单词交给语言处理组件，提取词根
1.3 将单词传给索引组件，处理成字典，按照字母顺序排序，合并相同的单词，成文倒排链表数据库

2，搜索索引：
2.1 根据用户输入的数据进行词法，语法和语言处理，提取关键字和普通单词，获得语法树
2.2 利用语法树进行索引搜索，将结果与搜索内容的相关性进行排序返回elasticsearch

Elasticsearch
全文检索的基本思路:对非结构化数据顺序扫描很慢，对结构化数据的搜索却相对较快（因为结构化数据有必定的结构能够采起必定的搜索算法加快速度），把咱们的非结构化数据想办法弄得有必定结构，也就是将非结构化数据中的一部分信息提取出来，从新组织，使其变得有必定结构，而后咱们从新组织的有必定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的而后从新组织的信息，咱们称之索引。oop

全文检索大致分两个过程：1.索引建立 (Indexing) ；2. 搜索索引 (Search) 。
1.索引建立：将现实世界中全部的结构化和非结构化数据提取信息，建立索引的过程。
2.搜索索引：就是获得用户的查询请求，搜索建立的索引，而后返回结果的过程。ui

倒排索引：
顺序查找的意思就是已知文件，欲求字符串的过程，也便是从文件到字符串的映射。而咱们想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即从字符串到文件的映射。二者偏偏相反。因为从字符串到文件的映射是文件到字符串映射的反向过程，因而保存这种信息的索引称为倒排索引，若是索引总可以保存从字符串到文件的映射，则会大大提升搜索速度。
索引里面包含的东西以下
反向索引的所保存的信息通常以下：
假设个人文档集合里面有100篇文档，为了方便表示，咱们为文档编号从1到100，获得下面的结构this

左边保存的是一系列字符串，称为词典。
每一个字符串都指向包含此字符串的文档(Document)链表，此文档链表称为倒排表 (Posting List)。
有了索引，便使保存的信息和要搜索的信息一致，能够大大加快搜索的速度。
好比说，咱们要寻找既包含字符串“lucene”又包含字符串“solr”的文档，咱们只须要如下几步：rest

取出包含字符串“lucene”的文档链表。
取出包含字符串“solr”的文档链表。
经过合并链表，找出既包含“lucene”又包含“solr”的文件。

虽然建立索引库也须要流程，可是若是采用顺序扫描的话，是每次都要扫描，而建立索引的过程仅仅须要一次，之后即是一劳永逸的了，每次搜索，建立索引的过程没必要通过，仅仅搜索建立好的索引就能够了。
如何建立索引
第一步：一些要索引的原文档(Document)。
先说Elasticsearch的文件存储，Elasticsearch是面向文档型数据库，一条数据在这里就是一个文档，用JSON做为文档序列化的格式，好比下面这条用户数据：
{ "name" : "John", "sex" : "Male", "age" : 25, "birthDate": "1990/05/01", "about" : "I love to go rock climbing", "interests": [ "sports", "music" ]}
为了方便说明索引建立过程，这里特地用两个文件为例：
文件一：Students should be allowed to go out with their friends, but not allowed to drink beer.
文件二：My friend Jerry went to school to see his students but found them drunk which is not allowed.
第二步：将原文档传给分词器(Tokenizer)。
分词器(Tokenizer)会作如下几件事情( 此过程称为Tokenize) ：排序

将文档分红一个一个单独的单词。
去除标点符号。
去除停词(Stop word) 。

所谓停词(Stop word)就是一种语言中最普通的一些单词，因为没有特别的意义，于是大多数状况下不能成为搜索的关键词，于是建立索引时，这种词会被去掉而减小索引的大小。
英语中停词(Stop word)如：“the”,“a”，“this”等。
对于每一种语言的分词组件(Tokenizer)，都有一个停词(stop word)集合。
通过分词(Tokenizer) 后获得的结果称为词元(Token) 。
在咱们的例子中，便获得如下词元(Token)：
“Students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，“My”，“friend”，“Jerry”，“went”，“school”，“see”，“his”，“students”，“found”，“them”，“drunk”，“allowed”。
第三步：将获得的词元(Token)传给语言处理组件(Linguistic Processor)。
语言处理组件(linguistic processor)主要是对获得的词元(Token)作一些同语言相关的处理。
对于英语，语言处理组件(Linguistic Processor) 通常作如下几点：索引

变为小写(Lowercase) 。
将单词缩减为词根形式，如“cars ”到“car ”等。这种操做称为：stemming 。
将单词转变为词根形式，如“drove ”到“drive ”等。这种操做称为：lemmatization 。

Stemming 和 lemmatization的异同：
相同之处：Stemming和lemmatization都要使词汇成为词根形式。
二者的方式不一样：
Stemming采用的是“缩减”的方式：“cars”到“car”，“driving”到“drive”。
Lemmatization采用的是“转变”的方式：“drove”到“drove”，“driving”到“drive”。
语言处理组件(linguistic processor)的结果称为词典(Term) 。
在咱们的例子中，通过语言处理，获得的词(Term)以下：
【“student”，“allow”，“go”，“their”，“friend”，“allow”，“drink”，“beer”，“my”，“friend”，“jerry”，“go”，“school”，“see”，“his”，“student”，“find”，“them”，“drink”，“allow”】
第四步：将获得的词(Term)传给索引组件(Indexer)。
索引组件(Indexer)主要作如下几件事情：hadoop

利用获得的词(Term)建立一个字典。

在咱们的例子中字典以下：
Term
Document ID
student
1
allow
1
go
1
their
1
friend
1
allow
1
drink
1
beer
1
my
2
friend
2
jerry
2
go
2
school
2
see
2
his
2
student
2
find
2
them
2
drink
2
allow
2

对字典按字母顺序进行排序。

Term
Document ID
allow
1
allow
1
allow
2
beer
1
drink
1
drink
2
find
2
friend
1
friend
2
go
1
go
2
his
2
jerry
2
my
2
school
2
see
2
student
1
student
2
their
1
them
2

合并相同的词(Term) 成为文档倒排(Posting List) 链表。

在此表中，有几个定义：
Document Frequency：即文档频次，表示总共有多少文件包含此词(Term)。
Frequency ：即词频率，表示此文件中包含了几个此词(Term)。
因此对词(Term) “allow”来说，总共有两篇文档包含此词(Term)，从而词(Term)后面的文档链表总共有两项，第一项表示包含“allow”的第一篇文档，即1号文档，此文档中，“allow”出现了2次，第二项表示包含“allow”的第二个文档，是2号文档，此文档中，“allow”出现了1次。
到此为止，索引已经建立好了，咱们能够经过它很快的找到咱们想要的文档。
并且在此过程当中，咱们惊喜地发现，搜索“drive”，“driving”，“drove”，“driven”也可以被搜到。由于在咱们的索引中，“driving”，“drove”，“driven”都会通过语言处理而变成“drive”，在搜索时，若是您输入“driving”，输入的查询语句一样通过咱们这里的一到三步，从而变为查询“drive”，从而能够搜索到想要的文档。

如何对索引进行搜索？
第一步：用户输入查询语句。
举个例子，用户输入语句：lucene AND learned NOT hadoop。
第二步：对查询语句进行词法分析，语法分析，及语言处理

词法分析主要用来识别单词和关键字。

如上述例子中，通过词法分析，获得单词有lucene，learned，hadoop, 关键字有AND, NOT。
若是在词法分析中发现不合法的关键字，则会出现错误。如lucene AMD learned，其中因为AND拼错，致使AMD做为一个普通的单词参与查询。

语法分析主要是根据查询语句的语法规则来造成一棵语法树。

若是发现查询语句不知足语法规则，则会报错。如lucene NOT AND learned，则会出错。
如上述例子，lucene AND learned NOT hadoop造成的语法树以下：

语言处理同索引过程当中的语言处理几乎相同。

如learned变成learn等。
通过第二步，咱们获得一棵通过语言处理的语法树。

第三步：搜索索引，获得符合语法树的文档。
此步骤有分几小步：
首先，在反向索引表中，分别找出包含lucene，learn，hadoop的文档链表。
其次，对包含lucene，learn的链表进行合并操做，获得既包含lucene又包含learn的文档链表。
而后，将此链表与hadoop的文档链表进行差操做，去除包含hadoop的文档，从而获得既包含lucene又包含learn并且不包含hadoop的文档链表。
此文档链表就是咱们要找的文档。

更多技术资讯可关注：gzitcast