Elasticsearch基础知识要点QA

时间 2019-12-05

标签 elasticsearch 基础知识要点栏目日志分析繁體版

原文原文链接

前言：本文为学习整理实践他人成果的记录型博客。在此统一感谢各原做者，若是你对基础知识不甚了解，能够经过查看Elasticsearch权威指南中文版, 此处注意你的elasticsearch版本，版本不同，可能有误差

Q1: Elasticsearch是如何实现Master选举的

Elasticsearch的选主是ZenDiscovery模块负责的，主要包含Ping（节点之间经过这个RPC来发现彼此）和Unicast（单播模块包含一个主机列表以控制哪些节点须要ping通）这两部分；
对全部能够成为master的节点（node.master: true）根据nodeId字典排序，每次选举每一个节点都把本身所知道节点排一次序，而后选出第一个（第0位）节点，暂且认为它是master节点。
若是对某个节点的投票数达到必定的值（能够成为master节点数n/2+1）而且该节点本身也选举本身，那这个节点就是master。不然从新选举一直到知足上述条件。

master节点的职责主要包括集群、节点和索引的管理，不负责文档级别的管理；data节点能够关闭http功能。html

Q2: Elasticsearch是如何避免脑裂现象的

当集群中master候选的个数不小于3个（node.master: true）。能够经过discovery.zen.minimum_master_nodes这个参数的设置来避免脑裂，设置为(N/2)+1。

这里node.master : true 是说明你是有资格成为master，并非指你就是master。是皇子，不是皇帝。假若有10个皇子，这里应该设置为（10/2）+1=6，这6个皇子合谋作决策，选出新的皇帝。另外的4个皇子，即便他们全聚一块儿也才四我的，不足合谋的最低人数限制，他们不能选出新皇帝。假如discovery.zen.minimum_master_nodes 设置的个数为5，有刚好有10个master备选节点，会出现什么状况呢？5个皇子组成一波，选一个皇帝出来，另外5个皇子也够了人数限制，他们也能选出一个皇帝来。此时一个天下两个皇帝，在es中就是脑裂。node

假如集群master候选节点为2的时候，这种状况是不合理的，最好把另一个node.master改为false。若是咱们不改节点设置，仍是套上面的(N/2)+1公式，此时discovery.zen.minimum_master_nodes应该设置为2。这就出现一个问题，两个master备选节点，只要有一个挂，就选不出master了。

我仍是用皇子的例子来讲明。假如先皇在位的时候规定，必须他的两个皇子都在的时候，才能从中2选1 继承皇位。万一有个皇子出意外挂掉了，就剩下一个皇子，天下不就没有新皇帝了么。linux

Q3: 客户端在和集群链接时，如何选择特定的节点执行请求的？

TransportClient利用transport模块远程链接一个elasticsearch集群。它并不加入到集群中，只是简单的得到一个或者多个初始化的transport地址，并以轮询的方式与这些地址进行通讯。

Q4: Elasticsearch 文档索引过程描述

协调节点默认使用文档ID参与计算（也支持经过routing），以便为路由提供合适的分片。

shard = hash(document_id) % (num_of_primary_shards)api

当分片所在的节点接收到来自协调节点的请求后，会将请求写入到Memory Buffer，而后定时（默认是每隔1秒）写入到Filesystem Cache，这个从Momery Buffer到Filesystem Cache的过程就叫作refresh；
固然在某些状况下，存在Momery Buffer和Filesystem Cache的数据可能会丢失，ES是经过translog的机制来保证数据的可靠性的。其实现机制是接收到请求后，同时也会写入到translog中，当Filesystem cache中的数据写入到磁盘中时，才会清除掉，这个过程叫作flush。
在flush过程当中，内存中的缓冲将被清除，内容被写入一个新段，段的fsync将建立一个新的提交点，并将内容刷新到磁盘，旧的translog将被删除并开始一个新的translog。
flush触发的时机是定时触发（默认30分钟）或者translog变得太大（默认为512M）时。

关于Lucene的segement（也就是上文中所说的段）的补充：

Lucene索引是由多个段组成，段自己是一个功能齐全的倒排索引。
段是不可变的，容许Lucene将新的文档增量地添加到索引中，而不用从头重建索引
对于每个搜索请求而言，索引中的全部段都会被搜索，而且每一个段会消耗CPU的时钟周、文件句柄和内存。这意味着段的数量越多，搜索性能会越低。
为了解决这个问题，Elasticsearch会合并小段到一个较大的段，提交新的合并段到磁盘，并删除那些旧的小段

Q5: Elasticsearch 文档更新和删除过程描述

删除和更新也都是写操做，可是Elasticsearch中的文档是不可变的，所以不能被删除或者改动以展现其变动；
磁盘上的每一个段都有一个相应的.del文件。当删除请求发送后，文档并无真的被删除，而是在.del文件中被标记为删除。该文档依然能匹配查询，可是会在结果中被过滤掉。当段合并时，在.del文件中被标记为删除的文档将不会被写入新段。
在新的文档被建立时，Elasticsearch会为该文档指定一个版本号，当执行更新时，旧版本的文档在.del文件中被标记为删除，新版本的文档被索引到一个新段。旧版本的文档依然能匹配查询，可是会在结果中被过滤掉。

Q6: Elasticsearch搜索的过程描述

搜索被执行成一个两阶段过程，咱们称之为 Query Then Fetch
在初始查询阶段时，查询会广播到索引中每个分片拷贝（主分片或者副本分片）。每一个分片在本地执行搜索并构建一个匹配文档的大小为 from + size 的优先队列。PS：在搜索的时候是会查询Filesystem Cache的，可是有部分数据还在Memory Buffer，因此搜索是近实时的。
每一个分片返回各自优先队列中全部文档的 ID 和排序值给协调节点，它合并这些值到本身的优先队列中来产生一个全局排序后的结果列表。
接下来就是取回阶段，协调节点辨别出哪些文档须要被取回并向相关的分片提交多个 GET 请求。每一个分片加载并丰富文档，若是有须要的话，接着返回文档给协调节点。一旦全部的文档都被取回了，协调节点返回结果给客户端。

Query Then Fetch的搜索类型在文档相关性打分的时候参考的是本分片的数据，这样在文档数量较少的时候可能不够准确，DFS Query Then Fetch增长了一个预查询的处理，询问Term和Document frequency，这个评分更准确，可是性能会变差。缓存

Q7: 在并发状况下，Elasticsearch若是保证读写一致？

能够经过版本号使用乐观并发控制，以确保新版本不会被旧版本覆盖，由应用层来处理具体的冲突；
另外对于写操做，一致性级别支持quorum/one/all，默认为quorum，即只有当大多数分片可用时才容许写操做。但即便大多数可用，也可能存在由于网络等缘由致使写入副本失败，这样该副本被认为故障，分片将会在一个不一样的节点上重建。
对于读操做，能够设置replication为sync(默认)，这使得操做在主分片和副本分片都完成后才会返回；若是设置replication为async时，也能够经过设置搜索请求参数_preference为primary来查询主分片，确保文档是最新版本。

Q8: Elasticsearch在部署时，对Linux的设置有哪些优化方法？

64 GB 内存的机器是很是理想的，可是32 GB 和16 GB 机器也是很常见的。少于8 GB 会拔苗助长。
若是你要在更快的 CPUs 和更多的核心之间选择，选择更多的核心更好。多个内核提供的额外并发远赛过稍微快一点点的时钟频率。
若是你负担得起 SSD，它将远远超出任何旋转介质。基于 SSD 的节点，查询和索引性能都有提高。若是你负担得起，SSD 是一个好的选择。
即便数据中心们近在咫尺，也要避免集群跨越多个数据中心。绝对要避免集群跨越大的地理距离。
请确保运行你应用程序的 JVM 和服务器的 JVM 是彻底同样的。在 Elasticsearch 的几个地方，使用 Java 的本地序列化。
经过设置gateway.recover_after_nodes、gateway.expected_nodes、gateway.recover_after_time能够在集群重启的时候避免过多的分片交换，这可能会让数据恢复从数个小时缩短为几秒钟。
Elasticsearch 默认被配置为使用单播发现，以防止节点无心中加入集群。只有在同一台机器上运行的节点才会自动组成集群。最好使用单播代替组播。
不要随意修改垃圾回收器（CMS）和各个线程池的大小。
把你的内存的（少于）一半给 Lucene（但不要超过 32 GB！），经过ES_HEAP_SIZE 环境变量设置。
内存交换到磁盘对服务器性能来讲是致命的。若是内存交换到磁盘上，一个 100 微秒的操做可能变成 10 毫秒。再想一想那么多 10 微秒的操做时延累加起来。不难看出 swapping 对于性能是多么可怕。
Lucene 使用了大量的文件。同时，Elasticsearch 在节点和 HTTP 客户端之间进行通讯也使用了大量的套接字。全部这一切都须要足够的文件描述符。你应该增长你的文件描述符，设置一个很大的值，如 64,000。

索引阶段性能提高方法补充

使用批量请求并调整其大小：每次批量数据 5–15 MB 大是个不错的起始点。
段和段合并：Elasticsearch 默认值是 20 MB/s，对机械磁盘应该是个不错的设置。若是你用的是 SSD，能够考虑提升到 100–200 MB/s。若是你在作批量导入，彻底不在乎搜索，你能够完全关掉合并限流。另外还能够增长 index.translog.flush_threshold_size 设置，从默认的 512 MB 到更大一些的值，好比 1 GB，这能够在一次清空触发的时候在事务日志里积累出更大的段。
若是你的搜索结果不须要近实时的准确度，考虑把每一个索引的index.refresh_interval 改到30s。
若是你在作大批量导入，考虑经过设置index.number_of_replicas: 0 关闭副本。

Q9: 对于GC方面，在使用Elasticsearch时要注意什么？

查看：https://elasticsearch.cn/article/32
倒排词典的索引须要常驻内存，没法GC，须要监控data node上segment memory增加趋势。
各种缓存，field cache, filter cache, indexing cache, bulk queue等等，要设置合理的大小，而且要应该根据最坏的状况来看heap是否够用，也就是各种缓存所有占满的时候，还有heap空间能够分配给其余任务吗？避免采用clear cache等“自欺欺人”的方式来释放内存。
避免返回大量结果集的搜索与聚合。确实须要大量拉取数据的场景，能够采用scan & scroll api来实现。
cluster stats驻留内存并没有法水平扩展，超大规模集群能够考虑分拆成多个集群经过tribe node链接。
想知道heap够不够，必须结合实际应用场景，并对集群的heap使用状况作持续的监控。