分布式存储系统事务时序

时间 2019-12-13

原文原文链接

今天谈谈分布式事务的时序问题。在说这个问题以前首先说说这为何是个问题。html

单机场景

对于数据库来讲，读到已经commit的数据是最基本的要求。通常来讲，为了性能，读写不互相阻塞，如今的数据库系统(Oracle，MySQL，OceanBase，Spanner，CockRoachDB,HBase)几乎无一例外的使用MVCC技术来达到这个目的。说白了，就是数据有多个版本，每次写产生新的更大的版本。读事务能够指定某个版本读，即快照读，数据库返回比指定的版本小的最大的版本的数据。固然也能够不指定，即读最新的已经commit的版本的数据。从时序上来看，越后写的数据，版本号越大，很显然，这个版本号能够经过实现一个单机内单调递增的counter来解决，counter从0开始以1递增。可是这样作，快照读搞不定：查找2015年3月29日1点的最新数据。这是由于这个counter和时间没有任何关系。那么显然，时间戳做为版本号再适合不过了。在单机上，即便出现clock skew(即单机上前后两次调gettimeofday取到的wall time，后面一次取到的wall time反而更小)，维护一个单机内单调递增的时间戳很容易办到。能够看出，在单机状况下，知足了Linearizability: T2在T1 commit成功后start，T2的commit timestamp必定大于T1的commit timestamp。下面看看多机的状况。git

多机场景

在多机状况下，如何知足Linearizability。github

仍是以写事务T1(修改x)，T2(修改y)为例，时序上T2在T1 commit以后start，因为不一样的服务器的时钟不同，有些快有些慢，致使T2可能拿到比T1更小的时间戳。算法

举个例子：数据库

假设机器M1的时钟比M2的时钟快30，T1事务在M1上提交，得到commit timestamp 200，随后T2事务在M2上开始并提交，因为M2时钟更慢30，T2的commit timestamp多是180。随后来了一个读事务T3，读x和y，分配的读版本号多是190，结果他只能都到T2的值，不能读到T1 ！数组

问题的根源在于机器之间的时钟不一样，没有全局时钟。服务器

Google的Spanner(看这和这)和Percolator(看这和这)都是搞了一个全局时钟来解决，区别在于Percolator的全局时钟就是基于固定的一台服务器产生，全部的事务获取commit时间戳都问这个全局时钟服务器要，天然保证了单调递增。问题，显而易见，单点，性能，扩展性。Spanner利用原子钟和GPS接收器，实现了一个较为精确的时钟，这个时钟叫作TrueTime，每次调用TrueTime API返回的是一个时间区间，而不是一个具体的值，这个TrueTime保证的是真实时间(absolute time/real time)必定在这个区间内，这个区间范围一般大约14ms，甚至更小。app

下面说说Spanner是如何保证Linearizability(external consistency)。分布式

事务的执行过程当中，Spanner保证每一个事务最后获得的commit timestamp介于这个事务的start和commit之间。基于这个条件，若是T2在T1 commit完成后才start，那么显然，T2的commit timestamp确定大于T1的timestamp。性能

Spanner是如何保证每一个事务最后获得的commit timestamp介于这个事务的start和commit之间？

在事务开始阶段调用一次TrueTime，返回[t-ε1,t1+ε1]，在事务commit阶段时再调用一次TrueTime,返回[t2-ε2,t2+ε2]，根据TrueTime的定义，显然，只要t1+ε1<t2-ε2，那么commit timestamp确定位于start和commit之间。等待的时间大概为2ε，大约14ms左右。能够说，这个延时基本上还能够接受。

至于读请求，直接调用TrueTime API,拿着右界去读便可。

若是没有TrueTime，怎么作到Linearizability

CockRoachDB是一个前Google员工创业的开源项目，基本上能够认为就是Spanner的开源实现。机器时钟经过NTP同步，基本能够保证机器间偏差在150ms左右。

若是按照Spanner的作法，写事务提交时每次都须要等待150ms，性能基本不可接受，固然CockRoachDB可让客户端选择是否使用这种方案，这种方法实现了Linearizability，能够性能太差，由于时钟偏差太大，和Spanner的高精度时钟无法比。

CockRoachDB作了一点work around，同时实现了一种比Linearizability更relax一点的一致性模型，能够保证下面两种状况的Linearizability。

单客户端事务

CockRoachDB 实现了单个客户端的Linearizability，保证同一个客户端前后发出去的两个事务T1和T2，T2的commit timestamp比T1的commit timestamp更大。方法就是T1事务执行完成会将commit timestamp返回给客户端，客户端执行T2时提供一个更大的时间戳给server，告诉server，T2的commit timestamp必须比这个时间戳更大。这样就保证了单个客户端的Linearizability。