solrcloud没有集群leader的问题

一、问题描述node

    第一步:在拥有3个节点的集群中,建立一个2个片,每一个片2个replication的collectionrest

    

    这时候,集群的leader为32机器(32机器的id值最小)日志

    第二步:在该collection上作dataimport,每秒1万条记录的导入速度(commit)。源码

    第三步:restart 32机器it

    问题现象:发现集群没有leader,zk上无 /overseer_elect/leader nodeio

        

    集群出现异常,没法写入数据,虽然collection显示正常import

    

二、问题分析集群

    按照solrcloud集群选举理论,在32机器重启后,32机器的id值变成最大,而30机器的id此时是最小值,那么30机器成为集群leader方法

此时30机器,没有成为leaderim

经过查看30机器的日志及solrcloud选举的源码

源码中,有个选举类LeaderElector,里面有个checkIfIamLeader方法,此方法就是“试图选举本身成为leader”

    该方法是先判断实际是否能够成为leader,若是能够,先删除原有的leader node,而后建立本身成为leader的node

    

 

   

     经过查看30的info日志发现,只执行了delete 原有leader node的操做,而没有建立“本身成为leader”的操做

三、解决办法

重启编号最小的那台机器,触发集群重选leader

相关文章
相关标签/搜索