CAP 定制:
Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性
ZooKeeper: 采用的是CP原则。
主要保持了一致性,
缺点:采用服务发现时,当出现了网络故障时,zooKeeper会把节点剔除点,及时节点很健壮。
小于n/2时,选举失败。
Eureka:采用的是AP原则。
一、当某一个节点发送故障时,客户端自动切换到新的Eureka节点,当节点回复时,再将节点归入管理范围,实现高可用。
二、由于网络问题,Eureka为启动“自我保护模式”,来实现高可能。
三、Eureka客户端增长缓存功能,在服务端异常时,经过客户端能够查询,获取服务的节点信息。node
Eureka的优点
一、在Eureka平台中,若是某台服务器宕机,Eureka不会有相似于ZooKeeper的选举leader的过程;客户端请求会自动切换到新的Eureka节点;当宕机的服务器从新恢复后,Eureka会再次将其归入到服务器集群管理之中;而对于它来讲,全部要作的无非是同步一些新的服务注册信息而已。因此,不再用担忧有“掉队”的服务器恢复之后,会从Eureka服务器集群中剔除出去的风险了。Eureka甚至被设计用来应付范围更广的网络分割故障,并实现“0”宕机维护需求。(多个zookeeper之间网络出现问题,形成出现多个leader,发生脑裂)当网络分割故障发生时,每一个Eureka节点,会持续的对外提供服务(注:ZooKeeper不会):接收新的服务注册同时将它们提供给下游的服务发现请求。这样一来,就能够实如今同一个子网中(same side of partition),新发布的服务仍然能够被发现与访问。
二、正常配置下,Eureka内置了心跳服务,用于淘汰一些“濒死”的服务器;若是在Eureka中注册的服务,它的“心跳”变得迟缓时,Eureka会将其整个剔除出管理范围(这点有点像ZooKeeper的作法)。这是个很好的功能,可是当网络分割故障发生时,这也是很是危险的;由于,那些由于网络问题(注:心跳慢被剔除了)而被剔除出去的服务器自己是很”健康“的,只是由于网络分割故障把Eureka集群分割成了独立的子网而不能互访而已。
幸运的是,Netflix考虑到了这个缺陷。若是Eureka服务节点在短期里丢失了大量的心跳链接(注:可能发生了网络故障),那么这个Eureka节点会进入”自我保护模式“,同时保留那些“心跳死亡“的服务注册信息不过时。此时,这个Eureka节点对于新的服务还能提供注册服务,对于”死亡“的仍然保留,以防还有客户端向其发起请求。当网络故障恢复后,这个Eureka节点会退出”自我保护模式“。因此Eureka的哲学是,同时保留”好数据“与”坏数据“总比丢掉任何”好数据“要更好,因此这种模式在实践中很是有效。
三、Eureka还有客户端缓存功能(注:Eureka分为客户端程序与服务器端程序两个部分,客户端程序负责向外提供注册与发现服务接口)。因此即使Eureka集群中全部节点都失效,或者发生网络分割故障致使客户端不能访问任何一台Eureka服务器;Eureka服务的消费者仍然能够经过Eureka客户端缓存来获取现有的服务注册信息。甚至最极端的环境下,全部正常的Eureka节点都不对请求产生相应,也没有更好的服务器解决方案来解决这种问题时;得益于Eureka的客户端缓存技术,消费者服务仍然能够经过Eureka客户端查询与获取注册服务信息,这点很重要。
四、Eureka的构架保证了它可以成为Service发现服务。它相对与ZooKeeper来讲剔除了Leader节点的选取或者事务日志机制,这样作有利于减小使用者维护的难度也保证了Eureka的在运行时的健壮性。并且Eureka就是为发现服务所设计的,它有独立的客户端程序库,同时提供心跳服务、服务健康监测、自动发布服务与自动刷新缓存的功能。可是,若是使用ZooKeeper你必须本身来实现这些功能。Eureka的全部库都是开源的,全部人都能看到与使用这些源代码,这比那些只有一两我的能看或者维护的客户端库要好。
五、维护Eureka服务器也很是的简单,好比,切换一个节点只须要在现有EIP下移除一个现有的节点而后添加一个新的就行。Eureka提供了一个web-based的图形化的运维界面,在这个界面中能够查看Eureka所管理的注册服务的运行状态信息:是否健康,运行日志等。Eureka甚至提供了Restful-API接口,方便第三方程序集成Eureka的功能。
ZooKeeper的劣势
在分布式系统领域有个著名的CAP定理(C-数据一致性;A-服务可用性;P-服务对网络分区故障的容错性,这三个特性在任何分布式系统中不能同时知足,最多同时知足两个);ZooKeeper是个CP的,即任什么时候刻对ZooKeeper的访问请求能获得一致的数据结果,同时系统对网络分割具有容错性;可是它不能保证每次服务请求的可用性(注:也就是在极端环境下,ZooKeeper可能会丢弃一些请求,消费者程序须要从新请求才能得到结果)。可是别忘了,ZooKeeper是分布式协调服务,它的职责是保证数据(注:配置数据,状态数据)在其管辖下的全部服务之间保持同步、一致;因此就不难理解为何ZooKeeper被设计成CP而不是AP特性的了,若是是AP的,那么将会带来恐怖的后果(注:ZooKeeper就像交叉路口的信号灯同样,你能想象在交通要道忽然信号灯失灵的状况吗?)。并且,做为ZooKeeper的核心实现算法Zab,就是解决了分布式系统下数据如何在多个服务之间保持同步问题的。
一、对于Service发现服务来讲就算是返回了包含不实的信息的结果也比什么都不返回要好;再者,对于Service发现服务而言,宁肯返回某服务5分钟以前在哪几个服务器上可用的信息,也不能由于暂时的网络故障而找不到可用的服务器,而不返回任何结果。因此说,用ZooKeeper来作Service发现服务是确定错误的,若是你这么用就惨了!
若是被用做Service发现服务,ZooKeeper自己并无正确的处理网络分割的问题;而在云端,网络分割问题跟其余类型的故障同样的确会发生;因此最好提早对这个问题作好100%的准备。就像Jepsen在ZooKeeper网站上发布的博客中所说:在ZooKeeper中,若是在同一个网络分区(partition)的节点数(nodes)数达不到ZooKeeper选取Leader节点的“法定人数”时,它们就会从ZooKeeper中断开,固然同时也就不能提供Service发现服务了。
二、ZooKeeper下全部节点不可能保证任什么时候候都能缓存全部的服务注册信息。若是ZooKeeper下全部节点都断开了,或者集群中出现了网络分割的故障(注:因为交换机故障致使交换机底下的子网间不能互访);那么ZooKeeper会将它们都从本身管理范围中剔除出去,外界就不能访问到这些节点了,即使这些节点自己是“健康”的,能够正常提供服务的;因此致使到达这些节点的服务请求被丢失了。(注:这也是为何ZooKeeper不知足CAP中A的缘由)
三、更深层次的缘由是,ZooKeeper是按照CP原则构建的,也就是说它能保证每一个节点的数据保持一致,而为ZooKeeper加上缓存的作法的目的是为了让ZooKeeper变得更加可靠(available);可是,ZooKeeper设计的本意是保持节点的数据一致,也就是CP。因此,这样一来,你可能既得不到一个数据一致的(CP)也得不到一个高可用的(AP)的Service发现服务了;由于,这至关于你在一个已有的CP系统上强制栓了一个AP的系统,这在本质上就行不通的!一个Service发现服务应该从一开始就被设计成高可用的才行!
四、若是抛开CAP原理无论,正确的设置与维护ZooKeeper服务就很是的困难;错误会常常发生,致使不少工程被创建只是为了减轻维护ZooKeeper的难度。这些错误不只存在与客户端并且还存在于ZooKeeper服务器自己。Knewton平台不少故障就是因为ZooKeeper使用不当而致使的。那些看似简单的操做,如:正确的重建观察者(reestablishing watcher)、客户端Session与异常的处理与在ZK窗口中管理内存都是很是容易致使ZooKeeper出错的。同时,咱们确实也遇到过ZooKeeper的一些经典bug:ZooKeeper-1159 与ZooKeeper-1576;咱们甚至在生产环境中遇到过ZooKeeper选举Leader节点失败的状况。这些问题之因此会出现,在于ZooKeeper须要管理与保障所管辖服务群的Session与网络链接资源(注:这些资源的管理在分布式系统环境下是极其困难的);可是它不负责管理服务的发现,因此使用ZooKeeper当Service发现服务得不偿失。
一个集群有3台机器,挂了一台后的影响是什么?挂了两台呢?
挂了一台:挂了一台后就是收不到其中一台的投票,可是有两台能够参与投票,按照上面的逻辑,它们开始都投给本身,后来按照选举的原则,两我的都投票给其中一个,那么就有一个节点得到的票等于2,2 > (3/2)=1 的,超过了半数,这个时候是能选出leader的。
挂了两台: 挂了两台后,怎么弄也只能得到一张票, 1 不大于 (3/2)=1的,这样就没法选出一个leader了。
ZAB(ZooKeeper Atomic Broadcast ) 全称为:原子消息广播协议;ZAB能够说是在Paxos算法基础上进行了扩展改造而来的,ZAB协议设计了支持崩溃恢复,ZooKeeper使用单一主进程Leader用于处理客户端全部事务请求,采用ZAB协议将服务器数状态以事务形式广播到全部Follower上;因为事务间可能存在着依赖关系,ZAB协议保证Leader广播的变动序列被顺序的处理,:一个状态被处理那么它所依赖的状态也已经提早被处理;ZAB协议支持的崩溃恢复能够保证在Leader进程崩溃的时候能够从新选出Leader而且保证数据的完整性;
过半数(>=N/2+1) 的Follower反馈信息后,Leader将再次向集群内Follower广播Commit信息,Commit为将以前的Proposal提交;web