Zookeeper面试题

时间 2019-11-09

原文原文链接

1. ZooKeeper是什么？

ZooKeeper是一个开放源码的分布式协调服务，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操做。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。java

分布式应用程序能够基于Zookeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。node

Zookeeper保证了以下分布式一致性特性：nginx

顺序一致性
原子性
单一视图
可靠性
实时性（最终一致性）

客户端的读请求能够被集群中的任意一台机器处理，若是读请求在节点上注册了监听器，这个监听器也是由所链接的zookeeper机器来处理。对于写请求，这些请求会同时发给其余zookeeper机器而且达成一致后，请求才会返回成功。所以，随着zookeeper的集群机器增多，读请求的吞吐会提升可是写请求的吞吐会降低。算法

有序性是zookeeper中很是重要的一个特性，全部的更新都是全局有序的，每一个更新都有一个惟一的时间戳，这个时间戳称为zxid（Zookeeper Transaction Id）。而读请求只会相对于更新有序，也就是读请求的返回结果中会带有这个zookeeper最新的zxid。数据库

2. ZooKeeper提供了什么？

一、文件系统
二、通知机制设计模式

3. Zookeeper文件系统

Zookeeper提供一个多层级的节点命名空间（节点称为znode）。与文件系统不一样的是，这些节点均可以设置关联的数据，而文件系统中只有文件节点能够存放数据而目录节点不行。
Zookeeper为了保证高吞吐和低延迟，在内存中维护了这个树状的目录结构，这种特性使得Zookeeper不能用于存放大量的数据，每一个节点的存放数据上限为1M。缓存

4. ZAB协议？

ZAB协议是为分布式协调服务Zookeeper专门设计的一种支持崩溃恢复的原子广播协议。服务器

ZAB协议包括两种基本的模式：崩溃恢复和消息广播。网络

当整个zookeeper集群刚刚启动或者Leader服务器宕机、重启或者网络故障致使不存在过半的服务器与Leader服务器保持正常通讯时，全部进程（服务器）进入崩溃恢复模式，首先选举产生新的Leader服务器，而后集群中Follower服务器开始与新的Leader服务器进行数据同步，当集群中超过半数机器与该Leader服务器完成数据同步以后，退出恢复模式进入消息广播模式，Leader服务器开始接收客户端的事务请求生成事物提案来进行事务请求处理。session

5. 四种类型的数据节点 Znode

PERSISTENT-持久节点
除非手动删除，不然节点一直存在于Zookeeper上
EPHEMERAL-临时节点
临时节点的生命周期与客户端会话绑定，一旦客户端会话失效（客户端与zookeeper链接断开不必定会话失效），那么这个客户端建立的全部临时节点都会被移除。
PERSISTENT_SEQUENTIAL-持久顺序节点
基本特性同持久节点，只是增长了顺序属性，节点名后边会追加一个由父节点维护的自增整型数字。
EPHEMERAL_SEQUENTIAL-临时顺序节点
基本特性同临时节点，增长了顺序属性，节点名后边会追加一个由父节点维护的自增整型数字。

6. Zookeeper Watcher 机制 -- 数据变动通知

Zookeeper容许客户端向服务端的某个Znode注册一个Watcher监听，当服务端的一些指定事件触发了这个Watcher，服务端会向指定客户端发送一个事件通知来实现分布式的通知功能，而后客户端根据Watcher通知状态和事件类型作出业务上的改变。

工做机制：

客户端注册watcher
服务端处理watcher
客户端回调watcher

Watcher特性总结：

一次性
不管是服务端仍是客户端，一旦一个Watcher被触发，Zookeeper都会将其从相应的存储中移除。这样的设计有效的减轻了服务端的压力，否则对于更新很是频繁的节点，服务端会不断的向客户端发送事件通知，不管对于网络仍是服务端的压力都很是大。
客户端串行执行
客户端Watcher回调的过程是一个串行同步的过程。
轻量
- Watcher通知很是简单，只会告诉客户端发生了事件，而不会说明事件的具体内容。
- 客户端向服务端注册Watcher的时候，并不会把客户端真实的Watcher对象实体传递到服务端，仅仅是在客户端请求中使用boolean类型属性进行了标记。
watcher event异步发送watcher的通知事件从server发送到client是异步的，这就存在一个问题，不一样的客户端和服务器之间经过socket进行通讯，因为网络延迟或其余因素致使客户端在不通的时刻监听到事件，因为Zookeeper自己提供了ordering guarantee，即客户端监听事件后，才会感知它所监视znode发生了变化。因此咱们使用Zookeeper不能指望可以监控到节点每次的变化。Zookeeper只能保证最终的一致性，而没法保证强一致性。
注册watcher getData、exists、getChildren
触发watcher create、delete、setData
当一个客户端链接到一个新的服务器上时，watch将会被以任意会话事件触发。当与一个服务器失去链接的时候，是没法接收到watch的。而当client从新链接时，若是须要的话，全部先前注册过的watch，都会被从新注册。一般这是彻底透明的。只有在一个特殊状况下，watch可能会丢失：对于一个未建立的znode的exist watch，若是在客户端断开链接期间被建立了，而且随后在客户端链接上以前又删除了，这种状况下，这个watch事件可能会被丢失。

7. 客户端注册Watcher实现

调用getData()/getChildren()/exist()三个API，传入Watcher对象
标记请求request，封装Watcher到WatchRegistration
封装成Packet对象，发服务端发送request
收到服务端响应后，将Watcher注册到ZKWatcherManager中进行管理
请求返回，完成注册。

8. 服务端处理Watcher实现

服务端接收Watcher并存储
接收到客户端请求，处理请求判断是否须要注册Watcher，须要的话将数据节点的节点路径和ServerCnxn（ServerCnxn表明一个客户端和服务端的链接，实现了Watcher的process接口，此时能够当作一个Watcher对象）存储在WatcherManager的WatchTable和watch2Paths中去。
Watcher触发
以服务端接收到 setData() 事务请求触发NodeDataChanged事件为例：
- 封装WatchedEvent
  将通知状态（SyncConnected）、事件类型（NodeDataChanged）以及节点路径封装成一个WatchedEvent对象
- 查询Watcher
  从WatchTable中根据节点路径查找Watcher
- 没找到；说明没有客户端在该数据节点上注册过Watcher
- 找到；提取并从WatchTable和Watch2Paths中删除对应Watcher（从这里能够看出Watcher在服务端是一次性的，触发一次就失效了）
调用process方法来触发Watcher
这里process主要就是经过ServerCnxn对应的TCP链接发送Watcher事件通知。

9. 客户端回调Watcher

客户端SendThread线程接收事件通知，交由EventThread线程回调Watcher。客户端的Watcher机制一样是一次性的，一旦被触发后，该Watcher就失效了。

10. ACL权限控制机制

UGO（User/Group/Others）

目前在Linux/Unix文件系统中使用，也是使用最普遍的权限控制方式。是一种粗粒度的文件系统权限控制模式。

ACL（Access Control List）访问控制列表

包括三个方面：

权限模式（Scheme）
- IP：从IP地址粒度进行权限控制
- Digest：最经常使用，用相似于 username:password 的权限标识来进行权限配置，便于区分不一样应用来进行权限控制
- World：最开放的权限控制方式，是一种特殊的digest模式，只有一个权限标识“world:anyone”
- Super：超级用户
受权对象
受权对象指的是权限赋予的用户或一个指定实体，例如IP地址或是机器灯。
权限 Permission
- CREATE：数据节点建立权限，容许受权对象在该Znode下建立子节点
- DELETE：子节点删除权限，容许受权对象删除该数据节点的子节点
- READ：数据节点的读取权限，容许受权对象访问该数据节点并读取其数据内容或子节点列表等
- WRITE：数据节点更新权限，容许受权对象对该数据节点进行更新操做
- ADMIN：数据节点管理权限，容许受权对象对该数据节点进行ACL相关设置操做

11. Chroot特性

3.2.0版本后，添加了 Chroot特性，该特性容许每一个客户端为本身设置一个命名空间。若是一个客户端设置了Chroot，那么该客户端对服务器的任何操做，都将会被限制在其本身的命名空间下。

经过设置Chroot，可以将一个客户端应用于Zookeeper服务端的一颗子树相对应，在那些多个应用公用一个Zookeeper进群的场景下，对实现不一样应用间的相互隔离很是有帮助。

12. 会话管理

分桶策略：将相似的会话放在同一区块中进行管理，以便于Zookeeper对会话进行不一样区块的隔离处理以及同一区块的统一处理。

分配原则：每一个会话的“下次超时时间点”（ExpirationTime）

计算公式：

ExpirationTime_ = currentTime + sessionTimeout
ExpirationTime = (ExpirationTime_ / ExpirationInrerval + 1) * ExpirationInterval , ExpirationInterval 是指 Zookeeper 会话超时检查时间间隔，默认 tickTime

13. 服务器角色

Leader

事务请求的惟一调度和处理者，保证集群事务处理的顺序性
集群内部各服务的调度者

Follower

处理客户端的非事务请求，转发事务请求给Leader服务器
参与事务请求Proposal的投票
参与Leader选举投票

Observer

3.3.0版本之后引入的一个服务器角色，在不影响集群事务处理能力的基础上提高集群的非事务处理能力

处理客户端的非事务请求，转发事务请求给Leader服务器
不参与任何形式的投票

14. Zookeeper 下 Server工做状态

服务器具备四种状态，分别是LOOKING、FOLLOWING、LEADING、OBSERVING。

LOOKING：寻找Leader状态。当服务器处于该状态时，它会认为当前集群中没有Leader，所以须要进入Leader选举状态。
FOLLOWING：跟随者状态。代表当前服务器角色是Follower。
LEADING：领导者状态。代表当前服务器角色是Leader。
OBSERVING：观察者状态。代表当前服务器角色是Observer。

15. Leader 选举

Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现如下两种状况之一时，须要进入Leader选举。

　　(1) 服务器初始化启动。

　　(2) 服务器运行期间没法和Leader保持链接。

　　下面就两种状况进行分析讲解。

　　1. 服务器启动时期的Leader选举

　　若进行Leader选举，则至少须要两台机器，这里选取3台机器组成的服务器集群为例。在集群初始化阶段，当有一台服务器Server1启动时，其单独没法进行和完成Leader选举，当第二台服务器Server2启动时，此时两台机器能够相互通讯，每台机器都试图找到Leader，因而进入Leader选举过程。选举过程以下

　　(1) 每一个Server发出一个投票。因为是初始状况，Server1和Server2都会将本身做为Leader服务器来进行投票，每次投票会包含所推举的服务器的myid和ZXID，使用(myid, ZXID)来表示，此时Server1的投票为(1, 0)，Server2的投票为(2, 0)，而后各自将这个投票发给集群中其余机器。

　　(2) 接受来自各个服务器的投票。集群的每一个服务器收到投票后，首先判断该投票的有效性，如检查是不是本轮投票、是否来自LOOKING状态的服务器。

　　(3) 处理投票。针对每个投票，服务器都须要将别人的投票和本身的投票进行PK，PK规则以下

　　　　· 优先检查ZXID。ZXID比较大的服务器优先做为Leader。

　　　　· 若是ZXID相同，那么就比较myid。myid较大的服务器做为Leader服务器。

　　对于Server1而言，它的投票是(1, 0)，接收Server2的投票为(2, 0)，首先会比较二者的ZXID，均为0，再比较myid，此时Server2的myid最大，因而更新本身的投票为(2, 0)，而后从新投票，对于Server2而言，其无须更新本身的投票，只是再次向集群中全部机器发出上一次投票信息便可。

　　(4) 统计投票。每次投票后，服务器都会统计投票信息，判断是否已经有过半机器接受到相同的投票信息，对于Server一、Server2而言，都统计出集群中已经有两台机器接受了(2, 0)的投票信息，此时便认为已经选出了Leader。

　　(5) 改变服务器状态。一旦肯定了Leader，每一个服务器就会更新本身的状态，若是是Follower，那么就变动为FOLLOWING，若是是Leader，就变动为LEADING。

　　2. 服务器运行时期的Leader选举

　　在Zookeeper运行期间，Leader与非Leader服务器各司其职，即使当有非Leader服务器宕机或新加入，此时也不会影响Leader，可是一旦Leader服务器挂了，那么整个集群将暂停对外服务，进入新一轮Leader选举，其过程和启动时期的Leader选举过程基本一致。假设正在运行的有Server一、Server二、Server3三台服务器，当前Leader是Server2，若某一时刻Leader挂了，此时便开始Leader选举。选举过程以下

　　(1) 变动状态。Leader挂后，余下的非Observer服务器都会讲本身的服务器状态变动为LOOKING，而后开始进入Leader选举过程。

　　(2) 每一个Server会发出一个投票。在运行期间，每一个服务器上的ZXID可能不一样，此时假定Server1的ZXID为123，Server3的ZXID为122；在第一轮投票中，Server1和Server3都会投本身，产生投票(1, 123)，(3, 122)，而后各自将投票发送给集群中全部机器。

　　(3) 接收来自各个服务器的投票。与启动时过程相同。

　　(4) 处理投票。与启动时过程相同，此时，Server1将会成为Leader。

　　(5) 统计投票。与启动时过程相同。

　　(6) 改变服务器的状态。与启动时过程相同。

　　2.2 Leader选举算法分析

　　在3.4.0后的Zookeeper的版本只保留了TCP版本的FastLeaderElection选举算法。当一台机器进入Leader选举时，当前集群可能会处于如下两种状态

　　　　· 集群中已经存在Leader。

　　　　· 集群中不存在Leader。

　　对于集群中已经存在Leader而言，此种状况通常都是某台机器启动得较晚，在其启动以前，集群已经在正常工做，对这种状况，该机器试图去选举Leader时，会被告知当前服务器的Leader信息，对于该机器而言，仅仅须要和Leader机器创建起链接，并进行状态同步便可。而在集群中不存在Leader状况下则会相对复杂，其步骤以下

　　(1) 第一次投票。不管哪一种致使进行Leader选举，集群的全部机器都处于试图选举出一个Leader的状态，即LOOKING状态，LOOKING机器会向全部其余机器发送消息，该消息称为投票。投票中包含了SID（服务器的惟一标识）和ZXID（事务ID），(SID, ZXID)形式来标识一次投票信息。假定Zookeeper由5台机器组成，SID分别为一、二、三、四、5，ZXID分别为九、九、九、八、8，而且此时SID为2的机器是Leader机器，某一时刻，一、2所在机器出现故障，所以集群开始进行Leader选举。在第一次投票时，每台机器都会将本身做为投票对象，因而SID为三、四、5的机器投票状况分别为(3, 9)，(4, 8)， (5, 8)。

　　(2) 变动投票。每台机器发出投票后，也会收到其余机器的投票，每台机器会根据必定规则来处理收到的其余机器的投票，并以此来决定是否须要变动本身的投票，这个规则也是整个Leader选举算法的核心所在，其中术语描述以下

　　　　· vote_sid：接收到的投票中所推举Leader服务器的SID。

　　　　· vote_zxid：接收到的投票中所推举Leader服务器的ZXID。

　　　　· self_sid：当前服务器本身的SID。

　　　　· self_zxid：当前服务器本身的ZXID。

　　每次对收到的投票的处理，都是对(vote_sid, vote_zxid)和(self_sid, self_zxid)对比的过程。

　　　　规则一：若是vote_zxid大于self_zxid，就承认当前收到的投票，并再次将该投票发送出去。

　　　　规则二：若是vote_zxid小于self_zxid，那么坚持本身的投票，不作任何变动。

　　　　规则三：若是vote_zxid等于self_zxid，那么就对比二者的SID，若是vote_sid大于self_sid，那么就承认当前收到的投票，并再次将该投票发送出去。

　　　　规则四：若是vote_zxid等于self_zxid，而且vote_sid小于self_sid，那么坚持本身的投票，不作任何变动。

　　结合上面规则，给出下面的集群变动过程。

　　(3) 肯定Leader。通过第二轮投票后，集群中的每台机器都会再次接收到其余机器的投票，而后开始统计投票，若是一台机器收到了超过半数的相同投票，那么这个投票对应的SID机器即为Leader。此时Server3将成为Leader。

　　由上面规则可知，一般那台服务器上的数据越新（ZXID会越大），其成为Leader的可能性越大，也就越可以保证数据的恢复。若是ZXID相同，则SID越大机会越大。

　　2.3 Leader选举实现细节

　　1. 服务器状态

　　服务器具备四种状态，分别是LOOKING、FOLLOWING、LEADING、OBSERVING。

　　LOOKING：寻找Leader状态。当服务器处于该状态时，它会认为当前集群中没有Leader，所以须要进入Leader选举状态。

　　FOLLOWING：跟随者状态。代表当前服务器角色是Follower。

　　LEADING：领导者状态。代表当前服务器角色是Leader。

　　OBSERVING：观察者状态。代表当前服务器角色是Observer。

　　2. 投票数据结构

　　每一个投票中包含了两个最基本的信息，所推举服务器的SID和ZXID，投票（Vote）在Zookeeper中包含字段以下

　　id：被推举的Leader的SID。

　　zxid：被推举的Leader事务ID。

　　electionEpoch：逻辑时钟，用来判断多个投票是否在同一轮选举周期中，该值在服务端是一个自增序列，每次进入新一轮的投票后，都会对该值进行加1操做。

　　peerEpoch：被推举的Leader的epoch。

　　state：当前服务器的状态。

　　3. QuorumCnxManager：网络I/O

　　每台服务器在启动的过程当中，会启动一个QuorumPeerManager，负责各台服务器之间的底层Leader选举过程当中的网络通讯。

　　(1) 消息队列。QuorumCnxManager内部维护了一系列的队列，用来保存接收到的、待发送的消息以及消息的发送器，除接收队列之外，其余队列都按照SID分组造成队列集合，如一个集群中除了自身还有3台机器，那么就会为这3台机器分别建立一个发送队列，互不干扰。

　　　　· recvQueue：消息接收队列，用于存放那些从其余服务器接收到的消息。

　　　　· queueSendMap：消息发送队列，用于保存那些待发送的消息，按照SID进行分组。

　　　　· senderWorkerMap：发送器集合，每一个SenderWorker消息发送器，都对应一台远程Zookeeper服务器，负责消息的发送，也按照SID进行分组。

　　　　· lastMessageSent：最近发送过的消息，为每一个SID保留最近发送过的一个消息。

　　(2) 创建链接。为了可以相互投票，Zookeeper集群中的全部机器都须要两两创建起网络链接。QuorumCnxManager在启动时会建立一个ServerSocket来监听Leader选举的通讯端口(默认为3888)。开启监听后，Zookeeper可以不断地接收到来自其余服务器的建立链接请求，在接收到其余服务器的TCP链接请求时，会进行处理。为了不两台机器之间重复地建立TCP链接，Zookeeper只容许SID大的服务器主动和其余机器创建链接，不然断开链接。在接收到建立链接请求后，服务器经过对比本身和远程服务器的SID值来判断是否接收链接请求，若是当前服务器发现本身的SID更大，那么会断开当前链接，而后本身主动和远程服务器创建链接。一旦链接创建，就会根据远程服务器的SID来建立相应的消息发送器SendWorker和消息接收器RecvWorker，并启动。

　　(3) 消息接收与发送。消息接收：由消息接收器RecvWorker负责，因为Zookeeper为每一个远程服务器都分配一个单独的RecvWorker，所以，每一个RecvWorker只须要不断地从这个TCP链接中读取消息，并将其保存到recvQueue队列中。消息发送：因为Zookeeper为每一个远程服务器都分配一个单独的SendWorker，所以，每一个SendWorker只须要不断地从对应的消息发送队列中获取出一个消息发送便可，同时将这个消息放入lastMessageSent中。在SendWorker中，一旦Zookeeper发现针对当前服务器的消息发送队列为空，那么此时须要从lastMessageSent中取出一个最近发送过的消息来进行再次发送，这是为了解决接收方在消息接收前或者接收到消息后服务器挂了，致使消息还没有被正确处理。同时，Zookeeper可以保证接收方在处理消息时，会对重复消息进行正确的处理。

　　4. FastLeaderElection：选举算法核心

　　· 外部投票：特指其余服务器发来的投票。

　　· 内部投票：服务器自身当前的投票。

　　· 选举轮次：Zookeeper服务器Leader选举的轮次，即logicalclock。

　　· PK：对内部投票和外部投票进行对比来肯定是否须要变动内部投票。

　　(1) 选票管理

　　· sendqueue：选票发送队列，用于保存待发送的选票。

　　· recvqueue：选票接收队列，用于保存接收到的外部投票。

　　· WorkerReceiver：选票接收器。其会不断地从QuorumCnxManager中获取其余服务器发来的选举消息，并将其转换成一个选票，而后保存到recvqueue中，在选票接收过程当中，若是发现该外部选票的选举轮次小于当前服务器的，那么忽略该外部投票，同时当即发送本身的内部投票。

　　· WorkerSender：选票发送器，不断地从sendqueue中获取待发送的选票，并将其传递到底层QuorumCnxManager中。

　　(2) 算法核心

　　上图展现了FastLeaderElection模块是如何与底层网络I/O进行交互的。Leader选举的基本流程以下

　　1. 自增选举轮次。Zookeeper规定全部有效的投票都必须在同一轮次中，在开始新一轮投票时，会首先对logicalclock进行自增操做。

　　2. 初始化选票。在开始进行新一轮投票以前，每一个服务器都会初始化自身的选票，而且在初始化阶段，每台服务器都会将本身推举为Leader。

　　3. 发送初始化选票。完成选票的初始化后，服务器就会发起第一次投票。Zookeeper会将刚刚初始化好的选票放入sendqueue中，由发送器WorkerSender负责发送出去。

　　4. 接收外部投票。每台服务器会不断地从recvqueue队列中获取外部选票。若是服务器发现没法获取到任何外部投票，那么就会当即确认本身是否和集群中其余服务器保持着有效的链接，若是没有链接，则立刻创建链接，若是已经创建了链接，则再次发送本身当前的内部投票。

　　5. 判断选举轮次。在发送完初始化选票以后，接着开始处理外部投票。在处理外部投票时，会根据选举轮次来进行不一样的处理。

　　　　· 外部投票的选举轮次大于内部投票。若服务器自身的选举轮次落后于该外部投票对应服务器的选举轮次，那么就会当即更新本身的选举轮次(logicalclock)，而且清空全部已经收到的投票，而后使用初始化的投票来进行PK以肯定是否变动内部投票。最终再将内部投票发送出去。

　　　　· 外部投票的选举轮次小于内部投票。若服务器接收的外选票的选举轮次落后于自身的选举轮次，那么Zookeeper就会直接忽略该外部投票，不作任何处理，并返回步骤4。

　　　　· 外部投票的选举轮次等于内部投票。此时能够开始进行选票PK。

　　6. 选票PK。在进行选票PK时，符合任意一个条件就须要变动投票。

　　　　· 若外部投票中推举的Leader服务器的选举轮次大于内部投票，那么须要变动投票。

　　　　· 若选举轮次一致，那么就对比二者的ZXID，若外部投票的ZXID大，那么须要变动投票。

　　　　· 若二者的ZXID一致，那么就对比二者的SID，若外部投票的SID大，那么就须要变动投票。

　　7. 变动投票。通过PK后，若肯定了外部投票优于内部投票，那么就变动投票，即便用外部投票的选票信息来覆盖内部投票，变动完成后，再次将这个变动后的内部投票发送出去。

　　8. 选票归档。不管是否变动了投票，都会将刚刚收到的那份外部投票放入选票集合recvset中进行归档。recvset用于记录当前服务器在本轮次的Leader选举中收到的全部外部投票（按照服务队的SID区别，如{(1, vote1), (2, vote2)...}）。

　　9. 统计投票。完成选票归档后，就能够开始统计投票，统计投票是为了统计集群中是否已经有过半的服务器承认了当前的内部投票，若是肯定已经有过半服务器承认了该投票，则终止投票。不然返回步骤4。

　　10. 更新服务器状态。若已经肯定能够终止投票，那么就开始更新服务器状态，服务器首选判断当前被过半服务器承认的投票所对应的Leader服务器是不是本身，如果本身，则将本身的服务器状态更新为LEADING，若不是，则根据具体状况来肯定本身是FOLLOWING或是OBSERVING。

　　以上10个步骤就是FastLeaderElection的核心，其中步骤4-9会通过几轮循环，直到有Leader选举产生。

16. 数据同步

整个集群完成Leader选举以后，Learner（Follower和Observer的统称）回向Leader服务器进行注册。当Learner服务器想Leader服务器完成注册后，进入数据同步环节。

数据同步流程：（均以消息传递的方式进行）

i. Learner向Learder注册

ii. 数据同步

iii. 同步确认

Zookeeper的数据同步一般分为四类：

直接差别化同步（DIFF同步）
先回滚再差别化同步（TRUNC+DIFF同步）
仅回滚同步（TRUNC同步）
全量同步（SNAP同步）

在进行数据同步前，Leader服务器会完成数据同步初始化：

peerLastZxid：从learner服务器注册时发送的ACKEPOCH消息中提取lastZxid（该Learner服务器最后处理的ZXID）
minCommittedLog：Leader服务器Proposal缓存队列committedLog中最小ZXID
maxCommittedLog：Leader服务器Proposal缓存队列committedLog中最大ZXID

直接差别化同步（DIFF同步）

场景：peerLastZxid介于minCommittedLog和maxCommittedLog之间

先回滚再差别化同步（TRUNC+DIFF同步）

场景：当新的Leader服务器发现某个Learner服务器包含了一条本身没有的事务记录，那么就须要让该Learner服务器进行事务回滚--回滚到Leader服务器上存在的，同时也是最接近于peerLastZxid的ZXID

仅回滚同步（TRUNC同步）

场景：peerLastZxid 大于 maxCommittedLog

全量同步（SNAP同步）

场景一：peerLastZxid 小于 minCommittedLog
场景二：Leader服务器上没有Proposal缓存队列且peerLastZxid不等于lastProcessZxid

17. zookeeper是如何保证事务的顺序一致性的？

zookeeper采用了全局递增的事务Id来标识，全部的proposal（提议）都在被提出的时候加上了zxid，zxid其实是一个64位的数字，高32位是epoch（时期; 纪元; 世; 新时代）用来标识leader周期，若是有新的leader产生出来，epoch会自增，低32位用来递增计数。当新产生proposal的时候，会依据数据库的两阶段过程，首先会向其余的server发出事务执行请求，若是超过半数的机器都能执行而且可以成功，那么就会开始执行。

18. 分布式集群中为何会有Master？

在分布式环境中，有些业务逻辑只须要集群中的某一台机器进行执行，其余的机器能够共享这个结果，这样能够大大减小重复计算，提升性能，因而就须要进行leader选举。

19. zk节点宕机如何处理？

Zookeeper自己也是集群，推荐配置很多于3个服务器。Zookeeper自身也要保证当一个节点宕机时，其余节点会继续提供服务。
若是是一个Follower宕机，还有2台服务器提供访问，由于Zookeeper上的数据是有多个副本的，数据并不会丢失；
若是是一个Leader宕机，Zookeeper会选举出新的Leader。
ZK集群的机制是只要超过半数的节点正常，集群就能正常提供服务。只有在ZK节点挂得太多，只剩一半或不到一半节点能工做，集群才失效。
因此
3个节点的cluster能够挂掉1个节点(leader能够获得2票>1.5)
2个节点的cluster就不能挂掉任何1个节点了(leader能够获得1票<=1)

20. zookeeper负载均衡和nginx负载均衡区别

zk的负载均衡是能够调控，nginx只是能调权重，其余须要可控的都须要本身写插件；可是nginx的吞吐量比zk大不少，应该说按业务选择用哪一种方式。

21. Zookeeper有哪几种几种部署模式？

部署模式：单机模式、伪集群模式、集群模式。

22. 集群最少要几台机器，集群规则是怎样的?

集群规则为2N+1台，N>0，即3台。

23. 集群支持动态添加机器吗？

其实就是水平扩容了，Zookeeper在这方面不太好。两种方式：

所有重启：关闭全部Zookeeper服务，修改配置以后启动。不影响以前客户端的会话。
逐个重启：在过半存活便可用的原则下，一台机器重启不影响整个集群对外提供服务。这是比较经常使用的方式。

3.5版本开始支持动态扩容。

24. Zookeeper对节点的watch监听通知是永久的吗？为何不是永久的?

不是。官方声明：一个Watch事件是一个一次性的触发器，当被设置了Watch的数据发生了改变的时候，则服务器将这个改变发送给设置了Watch的客户端，以便通知它们。

为何不是永久的，举个例子，若是服务端变更频繁，而监听的客户端不少状况下，每次变更都要通知到全部的客户端，给网络和服务器形成很大压力。
通常是客户端执行getData(“/节点A”,true)，若是节点A发生了变动或删除，客户端会获得它的watch事件，可是在以后节点A又发生了变动，而客户端又没有设置watch事件，就再也不给客户端发送。
在实际应用中，不少状况下，咱们的客户端不须要知道服务端的每一次变更，我只要最新的数据便可。

25. Zookeeper的java客户端都有哪些？

java客户端：zk自带的zkclient及Apache开源的Curator。

26. chubby是什么，和zookeeper比你怎么看？

chubby是google的，彻底实现paxos算法，不开源。zookeeper是chubby的开源实现，使用zab协议，paxos算法的变种。

27. 说几个zookeeper经常使用的命令。

经常使用命令：ls get set create delete等。

28. ZAB和Paxos算法的联系与区别？

相同点：
- 二者都存在一个相似于Leader进程的角色，由其负责协调多个Follower进程的运行
- Leader进程都会等待超过半数的Follower作出正确的反馈后，才会将一个提案进行提交
- ZAB协议中，每一个Proposal中都包含一个 epoch 值来表明当前的Leader周期，Paxos中名字为Ballot
不一样点：
ZAB用来构建高可用的分布式数据主备系统（Zookeeper），Paxos是用来构建分布式一致性状态机系统。

29. Zookeeper的典型应用场景

Zookeeper是一个典型的发布/订阅模式的分布式数据管理与协调框架，开发人员可使用它来进行分布式数据的发布和订阅。

经过对Zookeeper中丰富的数据节点进行交叉使用，配合Watcher事件通知机制，能够很是方便的构建一系列分布式应用中年都会涉及的核心功能，如：

数据发布/订阅
负载均衡
命名服务
分布式协调/通知
集群管理
Master选举
分布式锁
分布式队列

1. 数据发布/订阅

介绍

数据发布/订阅系统，即所谓的配置中心，顾名思义就是发布者发布数据供订阅者进行数据订阅。

目的

动态获取数据（配置信息）
实现数据（配置信息）的集中式管理和数据的动态更新

设计模式

Push 模式
Pull 模式

数据（配置信息）特性：

数据量一般比较小
数据内容在运行时会发生动态更新
集群中各机器共享，配置一致

如：机器列表信息、运行时开关配置、数据库配置信息等

基于Zookeeper的实现方式

数据存储：将数据（配置信息）存储到Zookeeper上的一个数据节点
数据获取：应用在启动初始化节点从Zookeeper数据节点读取数据，并在该节点上注册一个数据变动Watcher
数据变动：当变动数据时，更新Zookeeper对应节点数据，Zookeeper会将数据变动通知发到各客户端，客户端接到通知后从新读取变动后的数据便可。

2. 负载均衡

zk的命名服务
命名服务是指经过指定的名字来获取资源或者服务的地址，利用zk建立一个全局的路径，这个路径就能够做为一个名字，指向集群中的集群，提供的服务的地址，或者一个远程的对象等等。

分布式通知和协调
对于系统调度来讲：操做人员发送通知实际是经过控制台改变某个节点的状态，而后zk将这些变化发送给注册了这个节点的watcher的全部客户端。
对于执行状况汇报：每一个工做进程都在某个目录下建立一个临时节点。并携带工做的进度数据，这样汇总的进程能够监控目录子节点的变化得到工做进度的实时的全局状况。

7.zk的命名服务（文件系统）
命名服务是指经过指定的名字来获取资源或者服务的地址，利用zk建立一个全局的路径，便是惟一的路径，这个路径就能够做为一个名字，指向集群中的集群，提供的服务的地址，或者一个远程的对象等等。

8.zk的配置管理（文件系统、通知机制）
程序分布式的部署在不一样的机器上，将程序的配置信息放在zk的znode下，当有配置发生改变时，也就是znode发生变化时，能够经过改变zk中某个目录节点的内容，利用watcher通知给各个客户端，从而更改配置。

9.Zookeeper集群管理（文件系统、通知机制）
所谓集群管理无在意两点：是否有机器退出和加入、选举master。
对于第一点，全部机器约定在父目录下建立临时目录节点，而后监听父目录节点的子节点变化消息。一旦有机器挂掉，该机器与 zookeeper的链接断开，其所建立的临时目录节点被删除，全部其余机器都收到通知：某个兄弟目录被删除，因而，全部人都知道：它上船了。
新机器加入也是相似，全部机器收到通知：新兄弟目录加入，highcount又有了，对于第二点，咱们稍微改变一下，全部机器建立临时顺序编号目录节点，每次选取编号最小的机器做为master就好。

10.Zookeeper分布式锁（文件系统、通知机制）
有了zookeeper的一致性文件系统，锁的问题变得容易。锁服务能够分为两类，一个是保持独占，另外一个是控制时序。
对于第一类，咱们将zookeeper上的一个znode看做是一把锁，经过createznode的方式来实现。全部客户端都去建立 /distribute_lock 节点，最终成功建立的那个客户端也即拥有了这把锁。用完删除掉本身建立的distribute_lock 节点就释放出锁。
对于第二类， /distribute_lock 已经预先存在，全部客户端在它下面建立临时顺序编号目录节点，和选master同样，编号最小的得到锁，用完删除，依次方便。

11.获取分布式锁的流程
clipboard.png

在获取分布式锁的时候在locker节点下建立临时顺序节点，释放锁的时候删除该临时节点。客户端调用createNode方法在locker下建立临时顺序节点，
而后调用getChildren(“locker”)来获取locker下面的全部子节点，注意此时不用设置任何Watcher。客户端获取到全部的子节点path以后，若是发现本身建立的节点在全部建立的子节点序号最小，那么就认为该客户端获取到了锁。若是发现本身建立的节点并不是locker全部子节点中最小的，说明本身尚未获取到锁，此时客户端须要找到比本身小的那个节点，而后对其调用exist()方法，同时对其注册事件监听器。以后，让这个被关注的节点删除，则客户端的Watcher会收到相应通知，此时再次判断本身建立的节点是不是locker子节点中序号最小的，若是是则获取到了锁，若是不是则重复以上步骤继续获取到比本身小的一个节点并注册监听。当前这个过程当中还须要许多的逻辑判断。
clipboard.png

代码的实现主要是基于互斥锁，获取分布式锁的重点逻辑在于BaseDistributedLock，实现了基于Zookeeper实现分布式锁的细节。

12.Zookeeper队列管理（文件系统、通知机制）两种类型的队列：一、同步队列，当一个队列的成员都聚齐时，这个队列才可用，不然一直等待全部成员到达。二、队列按照 FIFO 方式进行入队和出队操做。第一类，在约定目录下建立临时目录节点，监听节点数目是不是咱们要求的数目。第二类，和分布式锁服务中的控制时序场景基本原理一致，入列有编号，出列按编号。在特定的目录下建立PERSISTENT_SEQUENTIAL节点，建立成功时Watcher通知等待的队列，队列删除序列号最小的节点用以消费。此场景下Zookeeper的znode用于消息存储，znode存储的数据就是消息队列中的消息内容，SEQUENTIAL序列号就是消息的编号，按序取出便可。因为建立的节点是持久化的，因此没必要担忧队列消息的丢失问题。