最近IM云平台也好,社交应用也好,大量的使用ejabberd的厂商涌现出来了。不过全部使用ejabberd厂商可能都会遇到Mnesia脑裂的问题。在这里打算简单的谈谈脑裂这个事情。
算法
我在这里面给个非官方的定义吧。当一个集群的不一样部分在同一时间都认为本身是活动的时候,咱们就能够将这个现象称为脑裂症状。咱们当如何理解这句话呢?flex
首先咱们须要是个集群。spa
其次当中有业务是Master-Backup模式或双星模式。也就是说当主节点挂掉了,备用节点须要接管业务或者是两个节点直接有数据同步。.net
让咱们举个例子(图片来自https://blog.process-one.net/angie_introducing_flexarch/):router
其中ejabberd front是不存在Router的,只有Client Manager。而ejabberd back是具备Message router 的。那么咱们能够将这个图简单的抽象为这样的:blog
UserA和UserB分别将本身的信息注册在RouterA和RouterB中。RouterA和RouterB使用数据同步(2PC),来同步信息。那么当UserA想要向UserB发送一个消息的时候,须要如今RouterA中查询出UserA到UserB的消息路由路径,而后再交付给相应的路径进行路由。图片
当脑裂发生的时候,至关RouterA和RouterB直接的联系丢失了,RouterA认为整个系统中只有它一个Router,RouterB也是这样认为的。那么至关于RouterA中没有UserB的信息,RouterB中没有UserA的信息了,此时UserA再发送消息给UserB的时候,RouterA会认为UserB已经离线了,而后将该信息进行离线持久化。ci
说到这里面估计你们已经明白了脑裂是什么东西了。
路由
paxos算法,使用奇数性质的节点来进行表决,必须选出一个说的算的老大,这个集群才能正常工做。同步
双星模式下,使用专线直连,从硬件上保障。
使用额外的探测节点,当双方直连断开以后,使用一个约定好的共同节点来探测是不是直连故障。