【Elasticsearch学习】之一图读懂文档索引全过程

时间 2020-05-11

原文原文链接

ES索引过程详解：java

1.客户端发送索引请求。node

　　客户端向ES节点发送索引请求，以RestClient客户端发起请求为例：算法

　　ES提供了Java High Level REST Client，用户能够经过RestClient发送请求：缓存

　　RestClient restClient = RestClient.builder(
　　　　　　　　　　　　new HttpHost("127.0.0.1", 9200, "http"),
　　　　　　　　　　　　new HttpHost("127.0.0.2", 9200, "http")
　　　　　　　　　　　).build();

　　其中127.0.0.1，127.0.0.1是ES中的节点，ES在接受请求时，充当coordinate node节点的角色，若是设置有专用coorinate node则应该将接受客户端请求的节点设置为该专用节点，负责请求的接受和转发。在RestClient中使用round-robin轮询算法，进行发送节点的选取。app

2.参数检查。学习

　　对请求中的参数进行检查，检查参数是否合法，不合法的参数直接返回失败给客户端。优化

3.数据预处理ui

　　若是请求指定了pipeline参数，则对数据进行预处理，数据预处理的节点为Ingest Node，若是接受请求的节点不具备数据处理能力，则转发给其余能处理的节点。spa

　　在Ingest Node上有定义好的处理数据的Pipeline，Pipeline中有一组定义好的Processor，每一个Processor分别具备不一样的处理功能，ES提供了一些内置的Processor，如：split、join、set 、script等，同时也支持经过插件的方式，实现自定义的Processor。数据通过Pipeline处理完毕后继续进行下一步操做。插件

4.判断索引是否存在

　　判断索引是否存在。若是索引不存在，则判断是否可以自动建立，能够经过action.auto_create_index设置可否自动建立索引；若是节点支持Dynamic Mapping，写入文档时，若是字段还没有在mapping中定义，则会根据索引文档信息推算字段的类型，但并不能彻底推算正确。

　　配置：Dynamic：true时，文档有新增字段的时候，索引的mapping也会同步更新。

　　　　　Dynamic：false时，索引的mapping不会被更新，新增字段没法被索引到。

　　　　　Dynamic：strict时，索引有新增字段时，将会报错。

　　注：生产环境尽可能避免使用Dynamic mapping，以避免过多字段致使cluster state占用过多。

5.建立索引

　　建立索引请求被发送到Master节点，由Master节点负责进行索引的建立，索引建立成功后，Master节点会更新集群状态clusterstate，更新完毕后将索引建立的状况返回给Coordinate节点，收到Master节点返回的全部建立索引的响应后，进入下一流程。

6.请求预处理

　　1）获取集群状态信息，判断集群是否正常；

　　2）从集群状态中获取对应索引的元信息，从元信息中获取索引的mapping、version、等信息，从请求中解析routing、id信息，若是请求没有指定文档的id，则会生成一个UUID做为文档的id。

7.路由计算

　　根据请求的routing、id信息计算文档应该被索引到哪一个分配，计算公式：

shard_num = hash(_routing) % num_primary_shards

　　_routing默认值为文档id，num_primary_shards是主分片个数，因此从算法中便可以看出索引的主分片个数一旦指定便没法修改，由于文档利用主分片的个数来进行定位。当使用自定义_routing或者id时，按照上面的公式计算，数据可能会大量汇集于某些分配，形成数据分布不均衡，因此ES提供了 routing_partition_size参数，routing_partition_size越大，数据的分布越均匀。分片的计算公式变为：

shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards

　　定位到shard序号后，还须要定位shard所属的数据节点；从集群状态的内容路由表获取主分片所在的节点，并将请求转发至节点。须要注意的是shard到数据节点的映射关系不是固定的，当检测到数据分布不均匀、新节点加入或者节点宕掉等会进行shard从新分配。

8.主分片索引文档

　　当主分片所在节点接受到请求后，节点开始进行本节点的文档写入，文档写入过程以下：

　　1）文档写入时，不会直接写入到磁盘中，而是先将文档写入到Index Buffer内存空间中，到必定的时间，Index Buffer会Refresh把内存中的文档写入Segment中。当文档在Index Buffer中时，是没法被查询到的，这就是ES不是实时搜索，而是近实时搜索的缘由。

　　2）由于文档写入时，先写入到内存中，当文档落盘以前，节点出现故障重启、宕机等，会形成内存中的数据丢失，因此索引写入的同时会同步向Transaction Log写入操做内容。

　　3）每隔固定的时间间隔ES会将Index Buffer中的文档写入到Segment中，这个写入的过程叫作Refresh，Refresh的时间能够经过index.refresh_interval，默认状况下为1秒。

　　4）写入到Segment中并不表明文档已经落盘，由于Segment写入磁盘的过程相对耗时，Refresh时会先将Segment写入缓存，开放查询，也就是说当文档写入Segment后就能够被查询到。每次refresh的时候都会生成一个新的segment，太多的Segment会占用过多的资源，并且每一个搜索请求都会遍历全部的Segment，Segment过多会致使搜索变慢，因此ES会按期合并Segment，减小Segment的个数，并将Segment和并为一个大的Segment；在操做Segment时，会维护一个Commit Point文件，其中记录了全部Segment的信息；同时维护.del文件用于记录全部删除的Segment信息。

　　单个倒排索引文件被称为Segment。多个Segment汇总在一块儿，就是Lucene的索引，对应的就是ES中的shard。

　　Lucene倒排索引由单词词典及倒排列表组成：

　　单词词典：记录全部文档的单词，记录单词到倒排列表的关系，数据量比较大，通常采用B+树，哈希拉链法实现。

　　倒排列表：记录单词对应的文档集合，由倒排索引项组成。倒排索引项结构如表所示： 其中，文档ID：记录单词所在文档的ID；词频：记录单词在文档中出现的次数；位置：记录单词在文档中的位置；偏移：记录单词的开始位置，结束位置。

　　5）每隔必定的时间（默认30分钟），ES会调用Flush操做，Flush操做会调用Refresh将Index Buffer清空；而后调用fsync将缓存中的Segments写入磁盘；随后清空Transaction Log。同时当Transaction Log空间（默认512M）后也会触发Flush操做。

9.副本分片索引文档

　　当主分片完成索引操做后，会循环处理要写的全部副本分片，向副本分片所在的节点发送请求。副本分片执行和主分片同样的文档写入流程，而后返回写入结果给主分片节点。

10.请求返回

　　主分片收到副本分片的响应后，会执行finish()操做，将收到的响应信息返回给Coordinate节点，告知Coordinate节点文档写入分片成功、失败的状况；coordinate节点收到响应后，将索引执行状况返回给客户端。当文档写入失败时，主分片节点会向Master节点返送shardFieled请求，由于主副本分片未同步，Master会更新集群的状态，将写失败的副本分片从in-sync-allocation中去除；同时在路由表中将该分片的状态改成unassigned，即未分配状态。

学习来源：

　　阮一鸣《Elasticsearch核心技术与实战》

　　张超《Elasticsearch 源码解析与优化实战》