Elasticsearch-数据的存储、搜索（干货）

ES-深刻功能
ES中数据是如何组织的？
逻辑设计：
用于索引和搜索的基本单位是文档，能够将其认为是关系数据库里的一行。文档以类型来分组，类型包含若干文档，相似表格包含若干行。最终，一个或多个类型存在于同一索引中，索引是更大的容器，相似数据库。
物理设计：
ES将每一个索引划分为分片，每份分片能够在集群中的不一样服务器间迁移。数据库

1.理解逻辑设计：文档、类型和索引

1.1文档：ES是面向文档的，这意味着索引和搜索的最小单位是文档。

文档的重要属性：
(1)它是自我包含的：一篇文档同时包含字段和他们的取值。
(2)它能够是层次型的：文档中还包含新的文档。一个字段的取值能够是简单的，例如，location字段的取值能够是字符串。字段还能够包含其余字段和取值，例如location字段能够同事包含城市和街道地址。
(3)它拥有灵活的结构：文档不依赖于预先定义的模式。例如，并不是全部的文档都须要description这个字段值，因此能够完全忽略该字段。可是文档可能须要新的字段，如location的维度和经度。
一篇文档一般是数据的JSON表示。和ES沟通最为普遍使用的方式是HTTP协议的JSON。
文档的ID没必要非要是个整数。实际上它是个字符串，并无限制。能够放置任何对应用有意义的字符。
ES中的文档是无模式的，也就是说并不是全部的文档都须要拥有相同的字段，他们不是受限于同一模式的。安全

1.2类型

类型是文档的逻辑容器，相似于表格是行的容器。在不一样的类型中，最好放入不一样结构的文档。
每一个类型中字段的定义称为映射。若是一个字段不是JSON文档的根节点，在其中搜索时必须指定路径，如：location中的geolocation字段被称为location.geolocation.
若是一篇新近索引的文档拥有一个映射中尚不存在的字段，ES会自动的将新字段加入映射，为了添加这个字段，ES不得不肯定它是什么类型，因而ES会进行猜想，如：若是值是7，ES会假设字段是长整型。这种新字段的自动检测也有缺点，由于ES可能猜的不对。例如：在索引了值7以后，可能想再索引hello world，这时因为它是string而不是long，索引就会失败。对于线上环境，最安全的方式是在索引数据以前，就定义好所需的映射。服务器

1.3索引

索引是映射类型的容器。一个ES索引很是像关系型世界的数据库，是独立的大量文档集合。每一个索引存储在磁盘上的同组文件中；索引存储了全部映射类型的字段，还有一些设置。如：每一个索引有一个称为refresh_interval的设置，定义了新近索引的文档对于搜索可见的时间间隔。从性能的角度来看，刷新操做的代价是很是昂贵的，这也是为何更新只是偶尔进行。默认是每秒更新一次，而不是每来一篇新的文档就更新一次。ES是准实时的。负载均衡

2.理解物理设计：节点和分片

默认状况下，每一个索引由5个主要分片组成，而每份主要分片又有一个副本，一共10份分片。副本分片对于可靠性和搜索性能颇有益处。一份分片是一个目录中的文件，Lucene用这些文件存储索引数据。分片也是ES将数据从一个节点迁移到另外一个节点的最小单位。分布式

2.1建立拥有一个或多个节点的集群

一个节点是一个ES的实例。在服务器上启动ES以后，就拥有了一个节点。也能够经过启动多个ES进程，在同一台服务器上拥有多个节点。
多个节点能够加入同一个集群。在多节点的集群上，一样的数据能够再多台服务器上传播。
优势：
有助于ES的性能，由于ES有了更多的资源。
有助于ES的稳定性，若是每份分片至少有1个副本分片，那么任何一个节点均可以宕机，而ES依然能够进行服务，返回全部数据。
默认状况下，能够链接集群中的任一节点并访问完整的数据集。
缺点：
必须肯定节点之间可以足够快速的通讯，而且不会产生大脑分裂。性能

1. 当索引一篇文档时发生了什么
a. 首先根据文档ID的散列值选择一个主分片
b. 并将文档发送到该主分片，这份主分片可能位于另外一个节点
c. 文档被发送到该主分片的全部副本分片进行索引。这使得副本分片和主分片之间保持数据同步。数据同步使得副本分片能够服务于搜索请求，并在原有主分片没法访问时自动升级为主分片。
2. 搜索索引时发生了什么
ES须要在该索引的完整分片集合中进行查找。这些分片可使主分片，也能够是副本分片，缘由是对应的主分片和副本分片一般包含同样的文档。ES在索引的主分片和副本分片中进行搜索请求的负载均衡，使得副本分片对于搜索性能和容错都有所帮助。
2.2理解主分片和副本分片
分片：ES处理的最小单元。一份分片是Lucene的索引（因此ES的索引由多个Lucene的索引组成）：一个包含倒排索引的文件目录。倒排索引的结构使得ES在不扫描全部文档的状况下，就能找出哪些文档包含特定的词条（单词）。
下图是一个分片，是一个Lucene索引、一个倒排索引。它默认存储原始文档的内容，再加上一些额外的信息，如词条字典和词频。spa

词条字典将每一个词条和包含该词条的文档映射起来。搜索的时候，ES没有必要为了某个词条扫描全部的文档，而是根据这个字典快速地识别匹配的文档。
词频使得ES能够快速地获取某篇文档中某个词条出现的次数。这对于计算结果的相关性得分很是重要。
分片可使主分片，也能够是副本分片，其中副本分片是主分片的完整副本。副本分片用于搜索，或者在原有主分片丢失后称为新的主分片。
ES索引由一个或多个主分片以及零个或多个副本分片构成。副本分片能够在运行的时候进行添加和移除，而主分片不能够。能够在任什么时候候改变每一个分片的副本分片数量，由于副本分片老是能够被建立和移除。这并不适用于索引划分为主分片的数量，在建立索引以前，必须决定主分片的数量。过少的分片将限制可扩展性，可是过多的分片会影响性能。默认设置的5个分片是一个不错的选择。设计

2.3在集群中分发分片

最简单的ES集群只有一个节点：一台机器上运行着一个ES进程。
水平扩展：随着愈来愈多的节点被添加到同一个集群中，现有的分片将在全部的节点中进行负载均衡。所以，在那些分片上的索引和搜索请求均可以从额外增长的节点中获益。集群中加入更多节点称为水平扩展，请求会被分发，工做负载会被分摊。
垂直扩展：为ES的节点增长更多硬件资源，多是为虚拟机分配更多处理器，或是为物理机增长更多的内存，尽管垂直扩展每次都能提高性能，可是它并不是老是可行的或经济的。blog

2.4分布式索引和搜索

接受索引请求的ES节点首先选择文档索引到那个分片。默认的，文档在分片中均匀分布：对于每篇文档，分片是经过其ID字符串的散列决定的。每份分片拥有相同的散列范围，接收新文档的机会均等。一旦目标分片肯定，接受请求的节点将文档转发到该分片所在的节点。随后，索引操做在全部目标分片的全部副本分片中进行。在全部可用副本分片完成文档的索引后，索引命令就会成功返回。索引

在搜索的时候，接受请求的节点将请求转发到一组包含全部数据的分片。ES使用round-robin的轮训机制选择可用的分片（主分片或副本分片），并将搜索请求转发过去。ES从这些分片收集结果，将其汇集到单一的回复，而后将回复返回给客户端应用程序。

默认状况下，搜索请求经过round-robin轮询机制选中主分片和副本分片，其假设集群中全部的节点是一样快的。若是不是如此，能够组织数据或配置分片，防止较慢的节点称为瓶颈。