分布式系统一致性

时间 2019-11-13

标签分布式系统一致性栏目系统架构繁體版

原文原文链接

1 理论

1.1 ACID事务特性

A（原子性）事务的原子操做单元，对数据的修改，要么所有执行，要么所有不执行
C（一致性）在事务开始和完成时，数据必须保持一致状态，相关的数据规则必须应用于事务的修改，以保证数据的完整性，事务结束时，全部的内部数据结构必须正确，仅仅是正确就能够了，并无要求系统内的数据在整体上处于不变的状态
I（隔离性）保证事务不受外部并发操做的独立环境执行
D（持久性）事务完成以后，对于数据的修改是永久的，即便系统出现故障也可以保持

1.2 一致性等级

强一致性：这种一致性级别是最符合用户直觉的，它要求系统写入什么，读出来的也会是什么，用户体验好，但实现起来每每对系统的性能影响大react

弱一致性：这种一致性级别约束了系统在写入成功后，不承诺当即能够读到写入的值，也不久承诺多久以后数据可以达到一致，但会尽量地保证到某个时间级别（好比秒级别）后，数据可以达到一致状态算法

最终一致性：最终一致性是弱一致性的一个特例，系统会保证在必定时间内，可以达到一个数据一致的状态。这里之因此将最终一致性单独提出来，是由于它是弱一致性中很是推崇的一种一致性模型，也是业界在大型分布式系统的数据一致性上比较推崇的模型数据库

最终一致性在弱一致性的基础上加上了时间规定，也就是说在某个时间点之后会实现数据的最终一致性。网络

1.3 CAP分布式理论

C（一致性）一致性是指数据的原子性，在经典的数据库中经过事务来保障，事务完成时，不管成功或回滚，数据都会处于一致的状态，在分布式环境下，一致性是指多个节点数据是否一致；
A（可用性）服务一直保持可用的状态，当用户发出一个请求，服务能在必定的时间内返回结果；
P（分区容忍性）在分布式应用中，可能由于一些分布式的缘由致使系统没法运转，好的分区容忍性，使应用虽然是一个分布式系统，可是好像一个能够正常运转的总体

根据CAP理论，一个系统只能知足其中两个。而分布式为了高可用，和分区容灾（高可扩），舍弃了一致性。数据结构

分布式系统中：并发

一致性：主要是指数据在多个副本之间可否保持一致的特性。在一致性的需求下，当一个系统在数据一致的状态下执行更新操做后，应该保证系统的数据仍然处于一直的状态。分布式

可用性：指系统提供的服务必须一直处于可用的状态，对于用户的每个操做请求老是可以在有限的时间内返回结果。这里的重点是"有限时间内"和"返回结果"。性能

分区容错性：分布式系统在遇到任何网络分区故障的时候，仍然须要可以保证对外提供知足一致性和可用性的服务，除非是整个网络环境都发生了故障。动画

1.4 BASE理论

BASE是Basically Available（基本可用）、Soft state（软状态）和Eventually consistent（最终一致性）三个短语的缩写。日志

BASE理论是对CAP中一致性和可用性权衡的结果，其来源于对大规模互联网系统分布式实践的总结，是基于CAP定理逐步演化而来的。BASE理论的核心思想是：即便没法作到强一致性，但每一个应用均可以根据自身业务特色，采用适当的方式来使系统达到最终一致性。

BASE中的三要素：

基本可用：指分布式系统在出现不可预知故障的时候，容许损失部分可用性。系统此时仍然可用，只是服务可能被延迟。

软状态：指容许系统中的数据存在中间状态，并认为该中间状态的存在不会影响系统的总体可用性，即容许系统在不一样节点的数据副本之间进行数据同步的过程存在延时

最终一致性：强调的是全部的数据副本，在通过一段时间的同步以后，最终都可以达到一个一致的状态。所以，最终一致性的本质是须要系统保证最终数据可以达到一致，而不须要实时保证系统数据的强一致性。

BASE理论面向的是大型高可用可扩展的分布式系统，和传统的事物ACID特性是相反的

2 paxos协议

2.1 base paxos

流程是这样的：

每台主机都是提议者也是接受者，（不然若是全部的主机都要修改，那么将会没有接受者）

预提案阶段：

每台须要提案的主机，生成一个全局位移的id，做为提案id，能够利用时间戳+本机ip地址的方式。而后将该提案发送给其余全部主机
其余主机收到提案id，之后若是目前保存的id为空，或是小于该id，那么就会将本身保存的提案id改成接收到的提案id，并向该主机回复：等待你的正式提案，表示支持。若是本身已经批准了一个提案，也就是说接受了一个值，那么就回复该值和该值的提案id

批准阶段：

一个提案者得到了一半以上（包括本身）的支持之后，若是收到了接受者表示本身已经批准了一个值，那么从这些接受者中选择一个提案id最大的，选择它的提案值，做为正式提案，带上本身的提案id向本身的支持者广播。若是不够一半以上，那么退出。如
当接受者收到了正式提案，若是提案id大于等于本身保存的，那么就接受该批准。并回复提案者。若是提案id小于本身保存的，那么就回复提案者，让其中断提案。

当一个提案者收到了一半以上的批准之后，造成一个多数派，向外广播表示某个值已经被肯定。

情形：

批准阶段，若是没有接收到足够支持，那么退出本轮。不在参与。批准阶段，在提交正式提案的时候，若是已经有接受者接受了别的值，那么提交者中断本次提案，同时向已经批准了本身的提案的接受者，表示个人提案已经终止了，请放弃批准。而后从新生成一个提案ID从新选举。

2.2 multi paxos

Multi Paxos先运行一次完整的paxos算法选举出leader，惟一的leader，在leader有效期内全部的议案都只能由leader发起。

Multi-Paxos协议并不假设全局必须只能有惟一的leader来生成日志，它容许有多个“自认为是leader的server”来并发生成日志，这样的场景即退化为Basic-Paxos。经过lease机制，保持这个leader的身份，使得其余proposer再也不发起提案，这样就进入了一个leader任期。在leader任期中，因为没有了并发冲突，这个leader在对后续的日志进行投票时，没必要每次都向多数派询问logID，也没必要执行prepare阶段，直接执行accept阶段便可。

2.3 fast paxos

fast paxos 则直接假设本身就是一个leader，他的提案id=0，若是批准的大于一半以上，则向外广播肯定了某个值，若是小于一半以上，表示发生冲突，回退到base paxos

3 raft协议

动画介绍

全部主机存在三种状态，leader，follow，和candidate.

follow 彻底被动的接受leader的消息，当超时一段时间没接受到消息就认为leader没了，那么本身会成为candidate，准备本身竞选leader

刚开机是全部的主机都是leader，随着时间推移，没有接到leader的消息，部分主机开始退化为leader，而后向其余的全部节点开始拉票，当超过一半的节点赞成之后，那么称为leader。赞成的节点称为该节点的follow。进行心跳检测。

当须要同步日志的时候，leader向全部的follow广播，当收到一半以上的节点确认该条日志的时候，leader在发送一条commit消息，表示该条日志复制成功。

当网络故障，分割了主机的时候，仍然须要一半以上的主机确认才能写入日志。

能够设置不一样节点的超时时间不一样，能够避免同一时间多个节点同时竞争leader。可是并不能彻底的避免，所以每台机器，在收到不超过通常赞成之后，会延时一段时间进行选举，这个延时时间各个机器再次不一样。

4 分布式事务

参考文章

分布式事务是指会涉及到操做多个数据库的事务。其实就是将对同一库事务的概念扩大到了对多个库的事务。目的是为了保证分布式系统中的数据一致性。分布式事务处理的关键是必须有一种方法能够知道事务在任何地方所作的全部动做，提交或回滚事务的决定必须产生统一的结果（所有提交或所有回滚）.

因为存在事务机制，能够保证每一个独立节点上的数据操做能够知足ACID。可是，相互独立的节点之间没法准确的知道其余节点中的事务执行状况.

让分布式部署的多台机器中的数据保持一致性，那么就要保证在全部节点的数据写操做，要不所有都执行，要么所有的都不执行。可是，一台机器在执行本地事务的时候没法知道其余机器中的本地事务的执行结果。因此他也就不知道本次事务到底应该commit仍是 roolback。因此，常规的解决办法就是引入一个“协调者”的组件来统一调度全部分布式节点的执行。

XA规范

X/Open DTP 模型（ 1994 ）包括:应用程序（ AP ）、事务管理器（ TM ）、资源管理器（ RM ）、通讯资源管理器（ CRM ）四部分.。

通常，常见的事务管理器（ TM ）是交易中间件，常见的资源管理器（ RM ）是数据库，常见的通讯资源管理器（ CRM ）是消息中间件。

一般把一个数据库内部的事务处理，如对多个表的操做，做为本地事务看待。数据库的事务处理对象是本地事务，而分布式事务处理的对象是全局事务。所谓全局事务，是指分布式事务处理环境中，多个数据库可能须要共同完成一个工做，这个工做便是一个全局事务

例如，一个事务中可能更新几个不一样的数据库。对数据库的操做发生在系统的各处但必须所有被提交或回滚。此时一个数据库对本身内部所作操做的提交不只依赖自己操做是否成功，还要依赖与全局事务相关的其它数据库的操做是否成功，若是任一数据库的任一操做失败，则参与此事务的全部数据库所作的全部操做都必须回滚。通常状况下，某一数据库没法知道其它数据库在作什么，所以，在一个 DTP 环境中，交易中间件是必需的，由它通知和协调相关数据库的提交或回滚。而一个数据库只将其本身所作的操做（可恢复）影射到全局事务中。

二阶提交协议和三阶提交协议就是根据这一思想衍生出来的。能够说二阶段提交其实就是实现XA分布式事务的关键(确切地说：两阶段提交主要保证了分布式事务的原子性：即全部结点要么全作要么全不作)。

3.1 二阶段提交

两个阶段是指：第一阶段：准备阶段(投票阶段)和第二阶段：提交阶段（执行阶段）

准备阶段

事务协调者(事务管理器)给每一个参与者(资源管理器)发送Prepare消息，每一个参与者要么直接返回失败(如权限验证失败)，要么在本地执行事务，写本地的redo和undo日志，但不提交。

协调者节点向全部参与者节点询问是否能够执行提交操做(vote)，并开始等待各参与者节点的响应。
参与者节点执行询问发起为止的全部事务操做，并将Undo信息和Redo信息写入日志。
各参与者节点响应协调者节点发起的询问。若是参与者节点的事务操做实际执行成功，则它返回一个”赞成”消息；若是参与者节点的事务操做实际执行失败，则它返回一个”停止”消息。

提交阶段

若是协调者收到了参与者的失败消息或者超时，直接给每一个参与者发送回滚(Rollback)消息；不然，发送提交(Commit)消息；参与者根据协调者的指令执行提交或者回滚操做，释放全部事务处理过程当中使用的锁资源。当协调者节点从全部参与者节点得到的相应消息都为”赞成”时:

协调者节点向全部参与者节点发出”正式提交(commit)”的请求，
参与者节点正式完成操做，并释放在整个事务期间内占用的资源
参与者节点向协调者节点发送”完成”消息
协调者节点受到全部参与者节点反馈的”完成”消息后，完成事务

当收到参与节点的终止消息的时候，步骤与上面的相似。

二阶段提交的问题

同步阻塞问题。执行过程当中，全部参与节点都是事务阻塞型的。当参与者占有公共资源时，其余第三方节点访问公共资源不得不处于阻塞状态。
单点故障。因为协调者的重要性，一旦协调者发生故障。参与者会一直阻塞下去。尤为在第二阶段，协调者发生故障，那么全部的参与者还都处于锁定事务资源的状态中，而没法继续完成事务操做。（若是是协调者挂掉，能够从新选举一个协调者，可是没法解决由于协调者宕机致使的参与者处于阻塞状态的问题）
数据不一致。在二阶段提交的阶段二中，当协调者向参与者发送commit请求以后，发生了局部网络异常或者在发送commit请求过程当中协调者发生了故障，这回致使只有一部分参与者接受到了commit请求。而在这部分参与者接到commit请求以后就会执行commit操做。可是其余部分未接到commit请求的机器则没法执行事务提交。因而整个分布式系统便出现了数据部一致性的现象。
二阶段没法解决的问题：协调者再发出commit消息以后宕机，而惟一接收到这条消息的参与者同时也宕机了。那么即便协调者经过选举协议产生了新的协调者，这条事务的状态也是不肯定的，没人知道事务是否被已经提交。

3.2 三阶段提交

三阶段提交有两个改动点：

引入超时机制。同时在协调者和参与者中都引入超时机制。
在第一阶段和第二阶段中插入一个准备阶段。保证了在最后提交阶段以前各参与节点的状态是一致的。

CanCommit阶段

3PC的CanCommit阶段其实和2PC的准备阶段很像。协调者向参与者发送commit请求，参与者若是能够提交就返回Yes响应，不然返回No响应。

PreCommit阶段

协调者根据参与者的反应状况来决定是否能够记性事务的PreCommit操做。根据响应状况，有如下两种可能。

假如协调者从全部的参与者得到的反馈都是Yes响应，那么就会执行事务的预执行。

假若有任何一个参与者向协调者发送了No响应，或者等待超时以后，协调者都没有接到参与者的响应，那么就执行事务的中断。

doCommit阶段

该阶段进行真正的事务提交，也能够分为如下两种状况。

执行提交：

发送提交请求协调接收到参与者发送的ACK响应，那么他将从预提交状态进入到提交状态。并向全部参与者发送doCommit请求。
事务提交参与者接收到doCommit请求以后，执行正式的事务提交。并在完成事务提交以后释放全部事务资源。
响应反馈事务提交完以后，向协调者发送Ack响应。
完成事务协调者接收到全部参与者的ack响应以后，完成事务。

中断事务协调者没有接收到参与者发送的ACK响应（多是接受者发送的不是ACK响应，也可能响应超时），那么就会执行中断事务。

发送中断请求协调者向全部参与者发送abort请求
事务回滚参与者接收到abort请求以后，利用其在阶段二记录的undo信息来执行事务的回滚操做，并在完成回滚以后释放全部的事务资源。
反馈结果参与者完成事务回滚以后，向协调者发送ACK消息
中断事务协调者接收到参与者反馈的ACK消息以后，执行事务的中断。

在doCommit阶段，若是参与者没法及时接收到来自协调者的doCommit或者rebort请求时，会在等待超时以后，会继续进行事务的提交。（其实这个应该是基于几率来决定的，当进入第三阶段时，说明参与者在第二阶段已经收到了PreCommit请求，那么协调者产生PreCommit请求的前提条件是他在第二阶段开始以前，收到全部参与者的CanCommit响应都是Yes。（一旦参与者收到了PreCommit，意味他知道你们其实都赞成修改了）因此，一句话归纳就是，当进入第三阶段时，因为网络超时等缘由，虽然参与者没有收到commit或者abort响应，可是他有理由相信：成功提交的概率很大。）

也就是说即便第三阶段超时，可是因为第二阶段的存在，所以有理由认为，各个参与者是能够提交成功的。

3.3 2PC与3PC的区别

相对于2PC，3PC主要解决的单点故障问题，并减小阻塞，由于一旦参与者没法及时收到来自协调者的信息以后，他会默认执行commit。而不会一直持有事务资源并处于阻塞状态。可是这种机制也会致使数据一致性问题，由于，因为网络缘由，协调者发送的abort响应没有及时被参与者接收到，那么参与者在等待超时以后执行了commit操做。这样就和其余接到abort命令并执行回滚的参与者之间存在数据不一致的状况。不管是二阶段提交仍是三阶段提交都没法完全解决分布式的一致性问题。世上只有一种一致性算法，那就是Paxos，全部其余一致性算法都是Paxos算法的不完整版。