条分缕析 Raft 算法

时间 2021-02-24

标签算法安全性能优化服务器网络分布式性能优化 spa 3d 栏目系统安全繁體版

原文原文链接

本文整理自 Ongaro 在 Youtube 上的视频。算法

目标

Raft 的目标（或者说是分布式共识算法的目标）是：保证 log 彻底相同地复制到多台服务器上。安全

只要每台服务器的日志相同，那么，在不一样服务器上的状态机以相同顺序从日志中执行相同的命令，将会产生相同的结果。性能优化

共识算法的工做就是管理这些日志。服务器

系统模型

咱们假设：网络

服务器可能会宕机、会中止运行过段时间再恢复，可是非拜占庭的（即它的行为是非恶意的，不会篡改数据等）；
网络通讯会中断，消息可能会丢失、延迟或乱序；可能会网络分区；

Raft 是基于 Leader 的共识算法，故主要考虑：分布式

Leader 正常运行
Leader 故障，必须选出新的 Leader

优势：只有一个 Leader，简单。性能

难点：Leader 发生改变时，可能会使系统处于不一致的状态，所以，下一任 Leader 必须进行清理；优化

咱们将从 6 个部分解释 Raft：spa

Leader 选举；
正常运行：日志复制（最简单的部分）；
Leader 变动时的安全性和一致性（最棘手、最关键的部分）；
处理旧 Leader：旧的 Leader 并无真的下线怎么办？
客户端交互：实现线性化语义(linearizable semantics)；
配置变动：如何在集群中增长或删除节点；

开始以前

开始以前须要了解 Raft 的一些术语。3d

服务器状态

服务器在任意时间只能处于如下三种状态之一：

Leader：处理全部客户端请求、日志复制。同一时刻最多只能有一个可行的 Leader；
Follower：彻底被动的（不发送 RPC，只响应收到的 RPC）——大多数服务器在大多数状况下处于此状态；
Candidate：用来选举新的 Leader，处于 Leader 和 Follower 之间的暂时状态；

系统正常运行时，只有一个 Leader，其他都是 Followers.

状态转换图：

任期

时间被划分红一个个的任期(Term)，每一个任期都由一个数字来表示任期号，任期号单调递增而且永远不会重复。

一个正常的任期至少有一个 Leader，一般分为两部分：

任期开始时的选举过程；
正常运行的部分；

有些任期可能没有选出 Leader（如图 Term 3），这时候会当即进入下一个任期，再次尝试选出一个 Leader。

每一个节点维护一个currentTerm变量，表示系统中当前任期。currentTerm必须持久化存储，以便在服务器宕机重启时将其恢复。

任期很是重要！任期可以帮助 Raft 识别过时的信息。例如：若是currentTerm = 2的节点与currentTerm = 3的节点通讯，咱们能够知道第一个节点上的信息是过期的。

咱们只使用最新任期的信息。后面咱们会遇到各类状况，去检测和消除不是最新任期的信息。

两个 RPC

Raft 中服务器之间全部类型的通讯经过两个 RPC 调用：

RequestVote：用于选举；
AppendEntries：用于复制 log 和发送心跳；

1. Leader 选举

启动

节点启动时，都是 Follower 状态；
Follower 被动地接受 Leader 或 Candidate 的 RPC；
因此，若是 Leader 想要保持权威，必须向集群中的其它节点发送心跳包（空的AppendEntries RPC）；
等待选举超时(electionTimeout，通常在 100~500ms)后，Follower 没有收到任何 RPC：
- Follower 认为集群中没有 Leader
- 开始新的一轮选举

选举

当一个节点开始竞选：

增长本身的currentTerm
转为 Candidate 状态，其目标是获取超过半数节点的选票，让本身成为 Leader
先给本身投一票
并行地向集群中其它节点发送RequestVote RPC索要选票，若是没有收到指定节点的响应，它会反复尝试，直到发生如下三种状况之一：

得到超过半数的选票：成为 Leader，并向其它节点发送AppendEntries心跳；
收到来自 Leader 的 RPC：转为 Follower；
其它两种状况都没发生，没人可以获胜(electionTimeout已过)：增长currentTerm，开始新一轮选举；

流程图以下：

选举安全性

选举过程须要保证两个特性：安全性(safety)和活性(liveness)。

安全性(safety)：一个任期内只会有一个 Leader 被选举出来。须要保证：

每一个节点在同一任期内只能投一次票，它将投给第一个知足条件的投票请求，而后拒绝其它 Candidate 的请求。这须要持久化存储投票信息votedFor，以便宕机重启后恢复，不然重启后votedFor丢失会致使投给别的节点；
只有得到超过半数节点的选票才能成为 Leader，也就是说，两个不一样的 Candidate 没法在同一任期内都得到超过半数的票；

活性(liveness)：确保最终能选出一个 Leader。

问题是：原则上咱们能够无限重复分割选票，假如选举同一时间开始，同一时间超时，同一时间再次选举，如此循环。

解决办法很简单：

节点随机选择超时时间，一般在 [T, 2T] 之间（T =electionTimeout）
这样，节点不太可能再同时开始竞选，先竞选的节点有足够的时间来索要其余节点的选票
T >> broadcast time(T 远大于广播时间)时效果更佳

2. 日志复制

日志结构

每一个节点存储本身的日志副本(log[])，每条日志记录包含：

索引：该记录在日志中的位置
任期号：该记录首次被建立时的任期号
命令

日志必须持久化存储。一个节点必须先将记录安全写到磁盘，才能向系统中其余节点返回响应。

若是一条日志记录被存储在超过半数的节点上，咱们认为该记录已提交(committed)——这是 Raft 很是重要的特性！若是一条记录已提交，意味着状态机能够安全地执行该记录。

在上图中，第 1-7 条记录被提交，第 8 条还没有提交。

提醒：多数派复制了日志即已提交，这个定义并不精确，咱们会在后面稍做修改。

正常运行

客户端向 Leader 发送命令，但愿该命令被全部状态机执行；
Leader 先将该命令追加到本身的日志中；
Leader 并行地向其它节点发送AppendEntries RPC，等待响应；
收到超过半数节点的响应，则认为新的日志记录是被提交的：
- Leader 将命令传给本身的状态机，而后向客户端返回响应
- 此外，一旦 Leader 知道一条记录被提交了，将在后续的AppendEntries RPC中通知已经提交记录的 Followers
- Follower 将已提交的命令传给本身的状态机
若是 Follower 宕机/超时：Leader 将反复尝试发送 RPC；
性能优化：Leader 没必要等待每一个 Follower 作出响应，只须要超过半数的成功响应（确保日志记录已经存储在超过半数的节点上）——一个很慢的节点不会使系统变慢，由于 Leader 没必要等他；

日志一致性

Raft 尝试在集群中保持日志较高的一致性。

Raft 日志的 index 和 term 惟一标示一条日志记录。（这很是重要！！！）

若是两个节点的日志在相同的索引位置上的任期号相同，则认为他们具备同样的命令；从头到这个索引位置之间的日志彻底相同；
若是给定的记录已提交，那么全部前面的记录也已提交。

`AppendEntries`一致性检查

Raft 经过AppendEntries RPC来检测这两个属性。

对于每一个AppendEntries RPC包含新日志记录以前那条记录的索引(prevLogIndex)和任期(prevLogTerm)；
Follower 检查本身的 index 和 term 是否与prevLogIndex和prevLogTerm匹配，匹配则接收该记录；不然拒绝；

3. Leader 更替

当新的 Leader 上任后，日志可能不会很是干净，由于前一任领导可能在完成日志复制以前就宕机了。Raft 对此的处理方式是：无需采起任何特殊处理。

当新 Leader 上任后，他不会当即进行任何清理操做，他将会在正常运行期间进行清理。

缘由是当一个新的 Leader 上任时，每每意味着有机器故障了，那些机器可能宕机或网络不通，因此没有办法当即清理他们的日志。在机器恢复运行以前，咱们必须保证系统正常运行。

大前提是 Raft 假设了 Leader 的日志始终是对的。因此 Leader 要作的是，随着时间推移，让全部 Follower 的日志最终都与其匹配。

但与此同时，Leader 也可能在完成这项工做以前故障，日志会在一段时间内堆积起来，从而形成看起来至关混乱的状况，以下所示：

由于咱们已经知道 index 和 term 是日志记录的惟一标识符，这里再也不显示日志包含的命令，下同。

如图，这种状况可能出如今 S4 和 S5 是任期二、三、4 的 Leader，但不知何故，他们没有复制本身的日志记录就崩溃了，系统分区了一段时间，S一、S二、S3 轮流成为了任期五、六、7 的 Leader，但没法与 S四、S5 通讯以进行日志清理——因此咱们看到的日志很是混乱。

惟一重要的是，索引 1-3 之间的记录是已提交的(已存在多数派节点)，所以咱们必须确保留下它们。

其它日志都是未提交的，咱们尚未将这些命令传递给状态机，也没有客户端会收到这些执行的结果，因此无论是保留仍是丢弃它们都可有可无。

安全性

一旦状态机执行了一条日志里的命令，必须确保其它状态机在一样索引的位置不会执行不一样的命令。

Raft 安全性(Safety)：若是某条日志记录在某个任期号已提交，那么这条记录必然出如今更大任期号的将来 Leader 的日志中。

这保证了安全性要求：

Leader 不会覆盖日志中的记录；
只有 Leader 的日志中的记录才能被提交；
在应用到状态机以前，日志必须先被提交；

这决定咱们要修改选举程序：

若是节点的日志中没有正确的内容，须要避免其成为 Leader；
稍微修改 committed 的定义（_即前面提到的要稍做修改_）：前面说多数派存储便是已提交的，但在某些时候，咱们必须延迟提交日志记录，直到咱们知道这条记录是安全的，所谓安全的，就是咱们认为后续 Leader 也会有这条日志。

延迟提交，选出最佳 Leader

问题来了：咱们如何确保选出了一个很好地保存了全部已提交日志的 Leader ？

这有点棘手，举个例子：假设咱们要在下面的集群中选出一个新 Leader，但此时第三台服务器不可用。

这种状况下，仅看前两个节点的日志咱们没法确认是否达成多数派，故没法确认第五条日志是否已提交。

那怎么办呢？

经过比较日志，在选举期间，选择最有可能包含全部已提交的日志：

Candidate 在RequestVote RPCs中包含日志信息（最后一条记录的 index 和 term，记为lastIndex和lastTerm）；
收到此投票请求的服务器 V 将比较谁的日志更完整：(lastTermV > lastTermC) ||
(lastTermV == lastTermC) && (lastIndexV > lastIndexC)将拒绝投票；（即：V 的任期比 C 的任期新，或任期相同但 V 的日志比 C 的日志更完整）；
不管谁赢得选举，能够确保 Leader 和超过半数投票给它的节点中拥有最完整的日志——最完整的意思就是 index 和 term 这对惟一标识是最大的。

举个例子

Case 1: Leader 决定提交日志

任期 2 的 Leader S1 的 index = 4 日志刚刚被复制到 S3，而且 Leader 能够看到 index = 4 已复制到超过半数的服务器，那么该日志能够提交，而且安全地应用到状态机。

如今，这条记录是安全的，下一任期的 Leader 必须包含此记录，所以 S4 和 S5 都不可能从其它节点那里得到选票：S5 任期太旧，S4 日志过短。

只有前三台中的一台能够成为新的 Leader——S1 固然能够，S二、S3 也能够经过获取 S4 和 S5 的选票成为 Leader。

Case 2: Leader 试图提交以前任期的日志

如图所示的状况，在任期 2 时记录仅写在 S1 和 S2 两个节点上，因为某种缘由，任期 3 的 Leader S5 并不知道这些记录，S5 建立了本身的三条记录而后宕机了，而后任期 4 的 Leader S1 被选出，S1 试图与其它服务器的日志进行匹配。所以它复制了任期 2 的日志到 S3。

此时 index=3 的记录时是不安全的。

由于 S1 可能在此时宕机，而后 S5 可能从 S二、S三、S4 得到选票成为任期 5 的 Leader。一旦 S5 成为新 Leader，它将覆盖 index=3-5 的日志，S1-S3 的这些记录都将消失。

咱们还要须要一条新的规则，来处理这种状况。

新的 Commit 规则

新的选举不足以保证日志安全，咱们还须要继续修改 commit 规则。

Leader 要提交一条日志：

日志必须存储在超过半数的节点上；
Leader 必须看到：超过半数的节点上还必须存储着至少一条本身任期内的日志；

如图，回到上面的 Case 2: 当 index = 3 & term = 2 被复制到 S3 时，它还不能提交该记录，必须等到 term = 4 的记录存储在超过半数的节点上，此时 index = 3 和 index = 4 能够认为是已提交。

此时 S5 没法赢得选举了，它没法从 S1-S3 得到选票。

结合新的选举规则和 commit 规则，咱们能够保证 Raft 的安全性。

日志不一致

Leader 变动可能致使日志的不一致，这里展现一种可能的状况。

能够从图中看出，Raft 集群中一般有两种不一致的日志：

缺失的记录(Missing Entries)；
多出来的记录(Extraneous Entries)；

咱们要作的就是清理这两种日志。

修复 Follower 日志

新的 Leader 必须使 Follower 的日志与本身的日志保持一致，经过：

删除 Extraneous Entries；
补齐 Missing Entries；

Leader 为每一个 Follower 保存nextIndex：

下一个要发送给 Follower 的日志索引；
初始化为： 1 + Leader 最后一条日志的索引；

Leader 经过nextIndex来修复日志。当AppendEntries RPC一致性检查失败，递减nextIndex并重试。以下图所示：

对于 a：

一开始nextIndex= 11，带上日志 index = 10 & term = 6，检查失败；
nextIndex= 10，带上日志 index = 9 & term = 6，检查失败；
如此反复，直到nextIndex= 5，带上日志 index = 4 & term = 4，该日志如今匹配，会在 a 中补齐 Leader 的日志。如此往下补齐。

对于 b：
会一直检查到nextIndex= 4 才匹配。值得注意的是，对于 b 这种状况，当 Follower 覆盖不一致的日志时，它将删除全部后续的日志记录（任何可有可无的记录以后的记录也都是可有可无的）。以下图所示：

4. 处理旧 Leader

实际上，老的 Leader 可能不会立刻消失，例如：网络分区将 Leader 与集群的其他部分分隔，其他部分选举出了一个新的 Leader。问题在于，若是老的 Leader 从新链接，也不知道新的 Leader 已经被选出来，它会尝试做为 Leader 继续提交日志。此时若是有客户端向老 Leader 发送请求，老的 Leader 会尝试存储该命令并向其它节点复制日志——咱们必须阻止这种状况发生。

任期就是用来发现过期的 Leader(和 Candidates)：

每一个 RPC 都包含发送方的任期；
若是发送方的任期太老，不管哪一个过程，RPC 都会被拒绝，发送方转变到 Follower 并更新其任期；
若是接收方的任期太老，接收方将转为 Follower，更新它的任期，而后正常的处理 RPC；

因为新 Leader 的选举会更新超过半数服务器的任期，旧的 Leader 不能提交新的日志，由于它会联系至少一台多数派集群的节点，而后发现本身任期太老，会转为 Follower 继续工做。

这里不打算继续讨论别的极端状况。

5. 客户端协议

客户端只将命令发送到 Leader：

若是客户端不知道 Leader 是谁，它会和任意一台服务器通讯；
若是通讯的节点不是 Leader，它会告诉客户端 Leader 是谁；

Leader 直到将命令记录、提交和执行到状态机以前，不会作出响应。

这里的问题是若是 Leader 宕机会致使请求超时：

客户端从新发出命令到其余服务器上，最终重定向到新的 Leader
用新的 Leader 重试请求，直到命令被执行

这留下了一个命令可能被执行两次的风险——Leader 可能在执行命令以后但响应客户端以前宕机，此时客户端再去寻找下一个 Leader，同一个命令就会被执行两次——这是不可接受的！

解决办法是：客户端发送给 Leader 的每一个命令都带上一个惟一 id

Leader 将惟一 id 写到日志记录中
在 Leader 接受命令以前，先检查其日志中是否已经具备该 id
若是 id 在日志中，说明是重复的请求，则忽略新的命令，返回旧命令的响应

每一个命令只会被执行一次，这就是所谓的线性化的关键要素。

6. 配置变动

随着时间推移，会有机器故障须要咱们去替换它，或者修改节点数量，须要有一些机制来变动系统配置，而且是安全、自动的方式，无需中止系统。

系统配置是指：

每台服务器的 id 和地址
系统配置信息是很是重要的，它决定了多数派的组成

首先要意识到，咱们不能直接从旧配置切换到新配置，这可能会致使矛盾的多数派。

如图，系统以三台服务器的配置运行着，此时咱们要添加两台服务器。若是咱们直接修改配置，他们可能没法彻底在同一时间作到配置切换，这会致使 S1 和 S2 造成旧集群的多数派，而同一时间 S3-S5 已经切换到新配置，这会产生两个集群。

这说明咱们必须使用一个两阶段(two-phase)协议。

若是有人告诉你，他能够在分布式系统中一个阶段就作出决策，你应该很是认真地询问他，由于他要么错了，要么发现了世界上全部人都不知道的东西。

共同一致(Joint Consensus)

Raft 经过共同一致(Joint Consensus)来完成两阶段协议，即：新、旧两种配置上都得到多数派选票。

第一阶段：

Leader 收到 Cnew 的配置变动请求后，先写入一条 Cold+new 的日志，配置变动当即生效，而后将日志经过AppendEntries RPC复制到 Follower 中，收到该 Cold+new 的节点当即应用该配置做为当前节点的配置；
Cold+new 日志复制到多数派节点上时，Cold+new 的日志已提交；

Cold+new 日志已提交保证了后续任何 Leader 必定有 Cold+new 日志，Leader 选举过程必须得到旧配置中的多数派和新配置中的多数派同时投票。

第二阶段：

Cold+new 日志已提交后，当即写入一条 Cnew 的日志，并将该日志经过AppendEntries RPC复制到 Follower 中，收到 Cnew 的节点当即应用该配置做为当前节点的配置；
Cnew 日志复制到多数派节点上时，Cnew 的日志已提交；在 Cnew 日志提交之后，后续的配置都基于 Cnew 了；