本文做者李钊,公众号「咖啡拿铁」做者,分布式事务 Seata 社区 Contributor。mysql
在前不久,我写了一篇关于分布式事务中间件 Fescar 的解析,没过几天 Fescar 团队对其进行了品牌升级,取名为 Seata(Simpe Extensible Autonomous Transcaction Architecture),而之前的 Fescar 的英文全称为 Fast & EaSy Commit And Rollback。能够看见 Fescar 从名字上来看更加局限于 Commit 和 Rollback,而新的品牌名字 Seata 旨在打造一套一站式分布式事务解决方案。更换名字以后,我对其将来的发展更有信心。git
这里先大概回忆一下 Seata 的整个过程模型:github
在以前的文章中对整个角色有个大致的介绍,在这篇文章中我将重点介绍其中的核心角色 TC,也就是事务协调器。redis
为何以前一直强调 TC 是核心呢?那由于 TC 这个角色就好像上帝同样,管控着芸芸众生的 RM 和 TM。若是 TC 一旦很差使,那么 RM 和 TM 一旦出现小问题,那一定会乱的一塌糊涂。因此要想了解 Seata,那么必需要了解他的 TC。sql
那么一个优秀的事务协调者应该具有哪些能力呢?我以为应该有如下几个:数据库
下面我也将逐步阐述 Seata 是如何作到上面四点。缓存
Seata-Server 总体的模块图如上所示:安全
首先来说讲比较基础的 Discover 模块,又称服务注册/发现模块。咱们将 Seata-Server 启动以后,须要将本身的地址暴露给其余使用者,那么就须要这个模块帮忙。网络
这个模块有个核心接口 RegistryService,如上图所示:session
若是须要添加本身定义的服务注册/发现,那么实现这个接口便可。截止目前在社区的不断开发推进下,已经有四种服务注册/发现,分别是 redis、zk、nacos、eruka。下面简单介绍下 Nacos 的实现:
step1:校验地址是否合法;
step2:获取 Nacos 的 Name 实例,而后将地址注册到当前 Cluster 名称上面。
unregister 接口相似,这里不作详解。
step1:获取当前 clusterName 名字;
step2:判断当前 Cluster 是否已经获取过了,若是获取过就从 Map 中取;
step3:从 Nacos 拿到地址数据,将其转换成咱们所须要的;
step4:将咱们事件变更的 Listener 注册到 Nacos。
这个接口比较简单,具体分两步:
step1:将 Clstuer 和 Listener 添加进 Map 中;
step2:向 Nacos 注册。
配置模块也是一个比较基础,比较简单的模块。咱们须要配置一些经常使用的参数好比:Netty 的 Select 线程数量,Work 线程数量,Session 容许最大为多少等等,固然这些参数在 Seata 中都有本身的默认设置。
一样的在 Seata 中也提供了一个接口 Configuration,用来自定义咱们须要的获取配置的地方:
目前为止有四种方式获取 Config:File(文件获取)、Nacos、Apollo、ZK。在 Seata 中首先须要配置 registry.conf,来配置 conf 的类型。实现 conf 比较简单这里就不深刻分析。
存储层的实现对于 Seata 是否高性能,是否可靠很是关键。
若是存储层没有实现好,那么若是发生宕机,在 TC 中正在进行分布式事务处理的数据将会被丢失。既然使用了分布式事务,那么其确定不能容忍丢失。若是存储层实现好了,可是其性能有很大问题,RM 可能会发生频繁回滚那么其彻底没法应对高并发的场景。
在 Seata 中默认提供了文件方式的存储,下面定义存储的数据为 Session,而 TM 创造的全局事务数据叫 GloabSession,RM 创造的分支事务叫 BranchSession,一个 GloabSession 能够拥有多个 BranchSession。咱们的目的就是要将这么多 Session 存储下来。
在 FileTransactionStoreManager#writeSession 代码中:
上面的代码主要分为下面几步:
step1:生成一个 TransactionWriteFuture。
step2:将这个 futureRequest 丢进一个 LinkedBlockingQueue 中。为何须要将全部数据都丢进队列中呢?固然这里其实也能够用锁来实现,在另一个阿里开源的 RocketMQ 中使用的锁。不管是队列仍是锁,他们的目的是为了保证单线程写,这又是为何呢?有人会解释说,须要保证顺序写,这样速度就很快,这个理解是错误的,咱们的 FileChannel 实际上是线程安全的,已经能保证顺序写了。保证单线程写实际上是为了让这个写逻辑都是单线程的,由于可能有些文件写满或者记录写数据位置等等逻辑,固然这些逻辑均可以主动加锁去作,可是为了实现简单方便,直接再整个写逻辑加锁是最为合适的。
step3:调用 future.get,等待该条数据写逻辑完成通知。
咱们将数据提交到队列以后,接下来须要对其进行消费,代码以下:
这里将一个 WriteDataFileRunnable() 提交进线程池,这个 Runnable 的 run() 方法以下:
分为下面几步:
step1:判断是否中止,若是 stopping 为 true 则返回 null。
step2:从队列中获取数据。
step3:判断 future 是否已经超时了,若是超时,则设置结果为 false,此时咱们生产者 get() 方法会接触阻塞。
step4:将数据写进文件,此时数据还在 pageCache 层并无刷新到磁盘,若是写成功而后根据条件判断是否进行刷盘操做。
step5:当写入数量到达必定的时候,或者写入时间到达必定的时候,须要将当前的文件保存为历史文件,删除之前的历史文件,而后建立新的文件。这一步是为了防止文件无限增加,大量无效数据浪费磁盘资源。
在 writeDataFile 中有以下代码:
step1:首先获取 ByteBuffer,若是超出最大循环 BufferSize 就直接建立一个新的,不然就使用缓存的 Buffer。这一步能够很大的减小 GC。
step2:而后将数据添加进入 ByteBuffer。
step3:最后将 ByteBuffer 写入 fileChannel,这里会重试三次。此时的数据还在 pageCache 层,受两方面的影响,OS 有本身的刷新策略,可是这个业务程序不能控制,为了防止宕机等事件出现形成大量数据丢失,因此就须要业务本身控制 flush。下面是 flush 的代码:
这里 flush 的条件写入必定数量或者写的时间超过必定时间,这样也会有个小问题若是是停电,那么 pageCache 中有可能还有数据并无被刷盘,会致使少许的数据丢失。目前还不支持同步模式,也就是每条数据都须要作刷盘操做,这样能够保证每条消息都落盘,可是性能也会受到极大的影响,固然后续会不断的演进支持。
Store 核心流程主要是上面几个方法,固然还有一些好比 Session 重建等,这些比较简单,读者能够自行阅读。
你们知道数据库实现隔离级别主要是经过锁来实现的,一样的再分布式事务框架 Seata 中要实现隔离级别也须要经过锁。通常在数据库中数据库的隔离级别一共有四种:读未提交、读已提交、可重复读、串行化。在 Seata 中能够保证写的互斥,而读的隔离级别通常是未提交,可是提供了达到读已提交隔离的手段。
Lock 模块也就是 Seata 实现隔离级别的核心模块。在 Lock 模块中提供了一个接口用于管理锁:
其中有三个方法:
对于锁咱们能够在本地实现,也能够经过 redis 或者 mysql 来帮助咱们实现。官方默认提供了本地全局锁的实现:
在本地锁的实现中有两个常量须要关注:
层数 | key | value |
1-LOCK_MAP | resourceId(jdbcUrl) | dbLockMap |
2- dbLockMap | tableName (表名) | tableLockMap |
3- tableLockMap | PK.hashcode%Bucket (主键值的 hashcode%bucket) | bucketLockMap |
4- bucketLockMap | PK | trascationId |
能够看见实际上的加锁在 bucketLockMap 这个 Map 中,这里具体的加锁方法比较简单就不做详细阐述,主要是逐步的找到 bucketLockMap ,而后将当前 trascationId 塞进去,若是这个主键当前有 TranscationId,那么比较是不是本身,若是不是则加锁失败。
保证 Seata 高性能的关键之一也是使用了 Netty 做为 RPC 框架,采用默认配置的线程模型以下图所示:
若是采用默认的基本配置那么会有一个 Acceptor 线程用于处理客户端的连接,会有 cpu*2 数量的 NIO-Thread,再这个线程中不会作业务过重的事情,只会作一些速度比较快的事情,好比编解码,心跳事件和TM注册。一些比较费时间的业务操做将会交给业务线程池,默认状况下业务线程池配置为最小线程为 100,最大为 500。
这里须要提一下的是 Seata 的心跳机制,这里是使用 Netty 的 IdleStateHandler 完成的,以下:
在 Sever 端对于写没有设置最大空闲时间,对于读设置了最大空闲时间,默认为 15s,若是超过 15s 则会将连接断开,关闭资源。
step1:判断是不是读空闲的检测事件;
step2:若是是则断开连接,关闭资源。
目前官方没有公布 HA-Cluster,可是经过一些其余中间件和官方的一些透露,能够将 HA-Cluster 用以下方式设计:
具体的流程以下:
step1:客户端发布信息的时候根据 TranscationId 保证同一个 Transcation 是在同一个 Master 上,经过多个 Master 水平扩展,提供并发处理性能。
step2:在 Server 端中一个 Master 有多个 Slave,Master 中的数据近实时同步到 Slave上,保证当 Master 宕机的时候,还能有其余 Slave 顶上来能够用。
固然上述一切都是猜想,具体的设计实现还得等 0.5 版本以后。目前有一个 Go 版本的 Seata-Server 也捐赠给了 Seata (还在流程中),其经过 Raft 实现副本一致性,其余细节不是太清楚。
这个模块也是一个没有具体公布实现的模块,固然有可能会提供插件口,让其余第三方 metric 接入进来。另外最近 Apache SkyWalking 正在和 Seata 小组商讨如何接入进来。
上面咱们讲了不少 Server 基础模块,想必你们对 Seata 的实现已经有个大概,接下来我会讲解事务协调器具体逻辑是如何实现的,让你们更加了解 Seata 的实现内幕。
启动方法在 Server 类有个 main 方法,定义了咱们启动流程:
step1:建立一个 RpcServer,再这个里面包含了咱们网络的操做,用 Netty 实现了服务端。
step2:解析端口号和文件地址。
step3:初始化 SessionHoler,其中最重要的重要就是重咱们 dataDir 这个文件夹中恢复咱们的数据,重建咱们的Session。
step4:建立一个CoorDinator,这个也是咱们事务协调器的逻辑核心代码,而后将其初始化,其内部初始化的逻辑会建立四个定时任务:
step5: 初始化 UUIDGenerator 这个也是咱们生成各类 ID(transcationId,branchId) 的基本类。
step6:将本地 IP 和监听端口设置到 XID 中,初始化 rpcServer 等待客户端的链接。
启动流程比较简单,下面我会介绍分布式事务框架中的常见的一些业务逻辑 Seata 是如何处理的。
一次分布式事务的起始点必定是开启全局事务,首先咱们看看全局事务 Seata 是如何实现的:
step1: 根据应用 ID,事务分组,名字,超时时间建立一个 GloabSession,这个再前面也提到过他和 branchSession 分别是什么。
step2:对其添加一个 RootSessionManager 用于监听一些事件,这里要说一下目前在 Seata 里面有四种类型的 Listener (这里要说明的是全部的 sessionManager 都实现了 SessionLifecycleListener):
step3:开启 Globalsession
这一步会把状态变为 Begin,记录开始时间,而且调用 RootSessionManager的onBegin 监听方法,将 Session 保存到 Map 并写入到咱们的文件。
step4:最后返回 XID,这个 XID 是由 ip+port+transactionId 组成的,很是重要,当 TM 申请到以后须要将这个 ID 传到 RM 中,RM 经过 XID 来决定到底应该访问哪一台 Server。
当全局事务在 TM 开启以后,RM 的分支事务也须要注册到全局事务之上,这里看看是如何处理的:
step1:经过 transactionId 获取并校验全局事务是不是开启状态。
step2:建立一个新的分支事务,也就是 BranchSession。
step3:对分支事务进行加全局锁,这里的逻辑就是使用锁模块的逻辑。
step4:添加 branchSession,主要是将其添加到 globalSession 对象中,并写入到咱们的文件中。
step5:返回 branchId,这个 ID 也很重要,咱们后续须要用它来回滚咱们的事务,或者对咱们分支事务状态更新。
分支事务注册以后,还须要汇报分支事务的后续状态究竟是成功仍是失败,在 Server 目前只是简单的作一下保存记录,汇报的目的是,就算这个分支事务失败,若是 TM 仍是执意要提交全局事务,那么再遍历提交分支事务的时候,这个失败的分支事务就不须要提交。
当分支事务执行完成以后,就轮到 TM-事务管理器来决定是提交仍是回滚,若是是提交,那么就会走到下面的逻辑:
step1:首先找到 globalSession。若是他为 Null 证实已经被 commit 过了,那么直接幂等操做,返回成功。
step2:关闭 GloabSession 防止再次有新的 branch 进来。
step3:若是 status 是等于 Begin,那么久证实尚未提交过,改变其状态为 Committing 也就是正在提交。
step4:判断是不是能够异步提交,目前只有AT模式能够异步提交,由于是经过 Undolog 的方式去作的。MT 和 TCC 都须要走同步提交的代码。
step5:若是是异步提交,直接将其放进 ASYNC_COMMITTING_SESSION_MANAGER,让其再后台线程异步去作 step6,若是是同步的那么直接执行 step6。
step6:遍历 BranchSession 进行提交,若是某个分支事务失败,根据不一样的条件来判断是否进行重试,异步不须要重试,由于其自己都在 manager 中,只要没有成功就不会被删除会一直重试,若是是同步提交的会放进异步重试队列进行重试。
若是咱们的 TM 决定全局回滚,那么会走到下面的逻辑:
这个逻辑和提交流程基本一致,能够看做是他的反向,这里就不展开讲了。
最后在总结一下开始咱们提出了分布式事务的关键四点,Seata 究竟是怎么解决的:
最后但愿你们能从这篇文章能了解 Seata-Server 的核心设计原理,固然你也能够想象若是你本身去实现一个分布式事务的 Server 应该怎样去设计?
公众号:金融级分布式架构(Antfin_SOFA)