solrcloud没有集群leader的问题

时间 2019-11-16

标签 solrcloud 没有集群 leader 问题栏目云服务繁體版

原文原文链接

一、问题描述node

第一步：在拥有3个节点的集群中，建立一个2个片，每一个片2个replication的collectionrest

这时候，集群的leader为32机器（32机器的id值最小）日志

第二步：在该collection上作dataimport，每秒1万条记录的导入速度（commit）。源码

第三步：restart 32机器it

问题现象：发现集群没有leader，zk上无 /overseer_elect/leader nodeio

集群出现异常，没法写入数据，虽然collection显示正常import

二、问题分析集群

按照solrcloud集群选举理论，在32机器重启后，32机器的id值变成最大，而30机器的id此时是最小值，那么30机器成为集群leader方法

此时30机器，没有成为leaderim

经过查看30机器的日志及solrcloud选举的源码

源码中，有个选举类LeaderElector，里面有个checkIfIamLeader方法，此方法就是“试图选举本身成为leader”

该方法是先判断实际是否能够成为leader，若是能够，先删除原有的leader node，而后建立本身成为leader的node

经过查看30的info日志发现，只执行了delete 原有leader node的操做，而没有建立“本身成为leader”的操做

三、解决办法

重启编号最小的那台机器，触发集群重选leader