elasticsearch系列八:ES 集群管理(集群规划、集群搭建、集群管理)

1、集群规划html

搭建一个集群咱们须要考虑以下几个问题:node

1. 咱们须要多大规模的集群?安全

2. 集群中的节点角色如何分配?服务器

3. 如何避免脑裂问题?网络

4. 索引应该设置多少个分片?并发

5. 分片应该设置几个副本?elasticsearch

下面咱们就来分析和回答这几个问题tcp

一、咱们须要多大规模的集群?

须要从如下两个方面考虑:ide

1.1 当前的数据量有多大?数据增加状况如何?
1.2 你的机器配置如何?cpu、多大内存、多大硬盘容量?高并发

推算的依据:

ES JVM heap 最大能够设置32G 。
30G heap 大概能处理的数据量 10 T。若是内存很大如128G,可在一台机器上运行多个ES节点实例。

备注:集群规划知足当前数据规模+适量增加规模便可,后续可按需扩展。

两类应用场景:

A. 用于构建业务搜索功能模块,且可能是垂直领域的搜索。数据量级几千万到数十亿级别。通常2-4台机器的规模。
B. 用于大规模数据的实时OLAP(联机处理分析),经典的如ELK Stack,数据规模可能达到千亿或更多。几十到上百节点的规模。

二、集群中的节点角色如何分配?

2.1 节点角色:

Master
node.master: true 节点能够做为主节点
DataNode
node.data: true 默认是数据节点。
Coordinate node 协调节点
若是仅担任协调节点,将上两个配置设为false。

说明:

一个节点能够充当一个或多个角色,默认三个角色都有

协调节点:一个节点只做为接收请求、转发请求到其余节点、汇总各个节点返回数据等功能的节点。就叫协调节点

2.2 如何分配:

A. 小规模集群,不需严格区分。
B. 中大规模集群(十个以上节点),应考虑单独的角色充当。特别并发查询量大,查询的合并量大,能够增长独立的协调节点。角色分开的好处是分工分开,不互影响。如不会因协调角色负载太高而影响数据节点的能力。

三、如何避免脑裂问题?

3.1 脑裂问题

一个集群中只有一个A主节点,A主节点由于须要处理的东西太多或者网络过于繁忙,从而致使其余从节点ping不通A主节点,这样其余从节点就会认为A主节点不可用了,就会从新选出一个新的主节点B。过了一会A主节点恢复正常了,这样就出现了两个主节点,致使一部分数据来源于A主节点,另一部分数据来源于B主节点,出现数据不一致问题,这就是脑裂

3.2 尽可能避免脑裂,须要添加最小数量的主节点配置:

discovery.zen.minimum_master_nodes: (有master资格节点数/2) + 1

这个参数控制的是,选举主节点时须要看到最少多少个具备master资格的活节点,才能进行选举。官方的推荐值是(N/2)+1,其中N是具备master资格的节点的数量。

3.3 经常使用作法(中大规模集群):

1. Master 和 dataNode 角色分开,配置奇数个master,如3
2. 单播发现机制,配置master资格节点:

discovery.zen.ping.multicast.enabled: false —— 关闭多播发现机制,默认是关闭的

discovery.zen.ping.unicast.hosts: ["master1", "master2", "master3"] —— 配置单播发现的主节点ip地址,其余从节点要加入进来,就得去询问单播发现机制里面配置的主节点我要加入到集群里面了,主节点赞成之后才能加入,而后主节点再通知集群中的其余节点有新节点加入

3. 配置选举发现数,及延长ping master的等待时长

discovery.zen.ping_timeout: 30(默认值是3秒)——其余节点ping主节点多久时间没有响应就认为主节点不可用了
discovery.zen.minimum_master_nodes: 2 —— 选举主节点时须要看到最少多少个具备master资格的活节点,才能进行选举

四、索引应该设置多少个分片?

说明:分片数指定后不可变,除非重索引。

思考:

分片对应的存储实体是什么?

  存储的实体是索引

分片是否是越多越好?

  不是

分片多有什么影响?

  分片多浪费存储空间、占用资源、影响性能

4.1 分片过多的影响:

每一个分片本质上就是一个Lucene索引, 所以会消耗相应的文件句柄, 内存和CPU资源。
每一个搜索请求会调度到索引的每一个分片中. 若是分片分散在不一样的节点却是问题不太. 但当分片开始竞争相同的硬件资源时, 性能便会逐步降低。
ES使用词频统计来计算相关性. 固然这些统计也会分配到各个分片上. 若是在大量分片上只维护了不多的数据, 则将致使最终的文档相关性较差。

4.2 分片设置的可参考原则:

ElasticSearch推荐的最大JVM堆空间是30~32G, 因此把你的分片最大容量限制为30GB, 而后再对分片数量作合理估算. 例如, 你认为你的数据能达到200GB, 推荐你最多分配7到8个分片。
在开始阶段, 一个好的方案是根据你的节点数量按照1.5~3倍的原则来建立分片. 例如,若是你有3个节点, 则推荐你建立的分片数最多不超过9(3x3)个。当性能降低时,增长节点,ES会平衡分片的放置。
对于基于日期的索引需求, 而且对索引数据的搜索场景很是少. 也许这些索引量将达到成百上千, 但每一个索引的数据量只有1GB甚至更小. 对于这种相似场景, 建议只须要为索引分配1个分片。如日志管理就是一个日期的索引需求,日期索引会不少,但每一个索引存放的日志数据量就不多。

五、分片应该设置几个副本?

说明:副本数是能够随时调整的!

思考:

副本的用途是什么?

  备份数据保证高可用数据不丢失,高并发的时候参与数据查询
针对它的用途,咱们该如何设置它的副本数?

  通常一个分片有1-2个副本便可保证高可用
集群规模没变的状况下副本过多会有什么影响?

  副本多浪费存储空间、占用资源、影响性能

5.1 副本设置基本原则:

为保证高可用,副本数设置为2便可。要求集群至少要有3个节点,来分开存放主分片、副本。
如发现并发量大时,查询性能会降低,可增长副本数,来提高并发查询能力。

注意:新增副本时主节点会自动协调,而后拷贝数据到新增的副本节点

2、集群搭建

1. 准备3台虚拟机:

192.168.152.128 、192.168.152.12九、192.168.152.130

2. 在3台虚拟机里面都安装好elasticsearch

安装教程参考我以前写的文章的ES的安装和配置部分:

https://www.cnblogs.com/leeSmall/p/9189078.html

3. 修改3台虚拟机下ES的配置,使得它们组成一个集群

进入elasticsearch的config目录,修改elasticsearch.yml的配置

3.1. IP访问限制、默认端口修改9200

这里有两个须要提醒下,第一个就是IP访问限制,第二个就是es实例的默认端口号9200。IP访问限制能够限定具体的IP访问服务器,这有必定的安全过滤做用。

# Set the bind address to a specific IP (IPv4 or IPv6): 
# 
network.host: 192.168.152.128

若是设置成0.0.0.0则是不限制任何IP访问。通常在生产的服务器可能会限定几台IP,一般用于管理使用。

默认的端口9200在通常状况下也有点风险,能够将默认的端口修改为另一个,这还有一个缘由就是怕开发人员误操做,链接上集群。固然,若是你的公司网络隔离作的很好也无所谓。

# 
# Set a custom port for HTTP: 
# 
http.port: 9200 transport.tcp.port: 9300

这里的9300是集群内部通信使用的端口,这个也能够修改掉。由于链接集群的方式有两种,经过扮演集群node也是能够进入集群的,因此仍是安全起见,修改掉默认的端口。

说明:记得修改安装了ES的3台虚拟机(三个节点)的相同配置,要否则节点之间没法创建链接工做,也会报错。

3.2 集群发现IP列表、node、cluster名称

紧接着修改集群节点IP地址,这样可让集群在规定的几个节点之间工做。elasticsearch,默认是使用自动发现IP机制。就是在当前网段内,只要能被自动感知到的IP就能自动加入到集群中。这有好处也有坏处。好处就是自动化了,当你的es集群须要云化的时候就会很是方便。可是也会带来一些不稳定的状况,如,master的选举问题、数据复制问题。

致使master选举的因素之一就是集群有节点进入。当数据复制发生的时候也会影响集群,由于要作数据平衡复制和冗余。这里面能够独立master集群,剔除master集群的数据节点能力。

固定列表的IP发现有两种配置方式,一种是互相依赖发现,一种是全量发现。各有优点吧,我是使用的依赖发现来作的。这有个很重要的参考标准,就是你的集群扩展速度有多快。由于这有个问题就是,当全量发现的时候,若是是初始化集群会有很大的问题,就是master全局会很长,而后节点之间的启动速度各不同。因此我采用了靠谱点的依赖发现。

你须要在192.168.152.128的elasticsearch中配置成:

# --------------------------------- Discovery ---------------------------------- 
# 
# Pass an initial list of hosts to perform discovery when new node is started: 
# The default list of hosts is ["127.0.0.1", "[::1]"] 
# 
discovery.zen.ping.unicast.hosts: [ "192.168.152.129:9300","192.168.152.130:9300" ]

让他去发现129,130的机器,以此内推,完成剩下的129和130机器的配置。

而后你须要配置下集群名称,就是你当前节点所在集群的名称,这有助于你规划你的集群。集群中的全部节点的集群名称必须同样,只有集群名称同样才能组成一个逻辑集群

# ---------------------------------- Cluster ----------------------------------- 
# 
# Use a descriptive name for your cluster: 
# 
cluster.name: mycluster 

配置你当前节点的名称

# 
# ------------------------------------ Node ------------------------------------ 
# 
# Use a descriptive name for the node: 
# 
node.name: node-1

以此类推,完成另外两个节点的配置。cluster.name的名称必须保持同样。而后分别设置node.name。

说明:

这里搭建的是一个简单的集群,没有作集群节点角色的区分,因此3个节点默认的角色有主节点、数据节点、协调节点

选举ES主节点的逻辑:

选举的大概逻辑,它会根据分片的数据的先后新鲜程度来做为选举的一个重要逻辑。(日志、数据、时间都会做为集群master全局的重要指标)

由于考虑到数据一致性问题,固然是用最新的数据节点做为master,而后进行新数据的复制和刷新其余node。

3、集群管理

1. 监控API

http://localhost:9200/_cat

GET  /_cat

/_cat/health
/_cat/nodes
/_cat/master
/_cat/indices
/_cat/allocation 
/_cat/shards 
/_cat/shards/{index}
/_cat/thread_pool
/_cat/segments 
/_cat/segments/{index}

2. x-pack

为集群提供安全防御、监控、告警、报告等功能的收费组件;
部分免费:https://www.elastic.co/subscriptions
6.3开始已开源,并并入了elasticsearch核心中。

官网安装介绍:

https://www.elastic.co/guide/en/elasticsearch/reference/6.2/installing-xpack-es.html

 

参考文章:

集群搭建一:https://www.cnblogs.com/wangiqngpei557/p/5967377.html

集群搭建二:https://www.cnblogs.com/jstarseven/p/6803054.html 这一篇文章写得比较详细,同时还总结了搭建过程当中遇到的问题,搭建ES集群的话强烈推荐

相关文章
相关标签/搜索