fescar锁设计和隔离级别的理解

时间 2019-11-17

标签 fescar 设计隔离级别理解繁體版

原文原文链接

Fescar全局锁的理解

前几天夜里，我老大发我一篇文章说阿里的GTS开源了.
由于一直对分布式事务比较感兴趣。立马pull了代码，进行阅读。
基本的原理，实现方案我就不一一细化了，详细见官方文档（写的很棒，点赞）。 

在fescar的社区，你们比较关注的是经过fescar回滚到before快照前，别的线程假如更新了数据，且业务走完了，那么恢复的这个快照不就是脏数据了么。
很显然，这种状况在fescar中是不被容许的。

那么fescar是如何作的呢？

咱们先简单了解一下fescar的设计原理git

那些一上来就喜欢看源码的同窗，必定不要错过这么官方的图文介绍，看完再读源码事半功倍.

Fescar官方介绍github

了解完Fescar的基本原理，咱们重点关注下Fescar的全局排他锁sql

Fescar设计了一个**全局的排他锁**，来保证事务间的 **写隔离**。

关于隔离性：（这是Fescar官方给的一段话）数据库

全局事务的隔离性是创建在分支事务的本地隔离级别基础之上的。

在数据库本地隔离级别  **读已提交或以上** 的前提下，Fescar 设计了由事务协调器维护的 全局写排他锁，来保证事务间的 写隔离，将 **全局事务默认定义在 读未提交 的隔离级别上**。

咱们对隔离级别的共识是：绝大部分应用在读已提交的隔离级别下工做是没有问题的。而实际上，这当中又有绝大多数的应用场景，实际上工做在读未提交的隔离级别下一样没有问题。

在极端场景下，应用若是须要达到全局的读已提交，Fescar也提供了相应的机制来达到目的。
默认，Fescar 是工做在 读无提交 的隔离级别下，保证绝大多数场景的高效性。

个人解读api

本地事务【读已提交】，fescar全局事务【读未提交】。这是这段话的核心。
我理解的这段话中fescar全局事务读未提交，并非说本地事务的db数据没有正常提交，而是指全局事务二阶段commit|rollback未真正处理完（即未释放全局锁）。

总结来讲：全局未提交可是本地已提交的数据，对其余全局事务是可见的【固然在本地事务提交后，本地事务提交前，隔离级别是本地事务的管辖范围】

for example
产品份额有5W，A用户购买了2万，份额branch一阶段完毕（本地事务份额已经扣除commit），可是在下单的时候异常了。
由于本地事务读已提交，这时候fescar容许业务访问该条数据，3W，在A用户的份额branch未回滚成功前，对其余用户可见。
可是其余用户并不能买该产品，必须等到产品份额回滚到5万，其余用户才能够操做产品数据。

因此看了这个例子 真的有必要作到全局事务读已提交么？

咱们先来看一下Fescar的全局锁的作法异步

Fescar一阶段分布式

1. 本地（Branch）在向TC注册的时候，把本地事务须要修改的数据table+pks提交到server端申请锁，拿到全局锁后，才能提交本地事务
2. 全局锁的结构：resourceId + table + pks
3. 锁是存在server端 branchSession中

Fescar二阶段性能

一阶段本地事务提交，db的锁释放了（for update锁），可是全局锁继续保持，
直到二阶段决议(注意释放锁的顺序)：
1. 提交：TC 释放锁,通知branch提交后 (rm端异步处理)
2. 回滚：TC 通知branch回滚后,释放锁（rm端同步处理 执行undo_log）

Fescar如何保障锁的高效？spa

你们本身先思考下，最后给你们仔细解读官方的demo，并分析fescar的性能问题

Fescar目前开源版本全局锁的实现线程

你们有兴趣本身阅读:com.alibaba.fescar.server.lock.DefaultLockManagerImpl

官方的图实在是作的太漂亮了，clone一份解读 TC TM RM 以及全局锁的获取和释放动做发生点

分支事务如何工做？关注全局锁的获取和释放 特别是二阶段commit和rollback全局锁释放的顺序

ATBranch.png

Fescar中 RM TM TC如何工做的？

AT distribute transaction.png

看了这两张图，你们应该对fescar是如何工做的应该有一个大体的了解了。☺
一、全局锁的获取
二、tm tc rm之间如何通讯工做
三、隔离级别问题的思考

最后咱们来解读一遍官方的demo

branch1：update storage_tbl set count = count - ? where commodity_code = ?
branch2：update account_tbl set money = money - ? where user_id = ?
branch3：insert into order_tbl (user_id, commodity_code, count, money) values (?, ?, ?, ?)

线程A：执行branch1（pk：55），执行branch2的时候发现没钱了，扔了一个异常，那么势必须要回滚branch1的份额。
- TM通知TC开始回滚branch1份额中
线程B：执行branch1（pk：55）
- 若是线程A中branch1（pk：55）已经回滚成功了，那么B线程能够正常拿到锁走下去
- 若是线程A中branch1还未回滚（resourceId+table+pk锁未释放）。当线程B发起branch1向server发起申请锁，会直接失败。

Fescar全局锁简单总结：操做一条记录的分支事务，必须等待这条记录的前一个分支事务执行结束（具体commit rollback状况分析以下），才能持有锁。

其实相比XA的锁，fescar在每一个分支事务的一阶段结束后都释放了db的锁，因此fescar的性能瓶颈应该在于二阶段的执行速度（释放锁的快慢）

由于分布式事务在执行事务编排前，通常会校验业务的正确性，因此发生回滚的几率相对较低，因此先考虑二阶段commit操做。

Commit场景分析：

TM通知server进行commit，server立马释 branch的锁，而后再逐个通知RM提交
 消耗：1 rpc操做，（branch删除undo_log放在异步队列里面作）

Rollback场景分析：

TM通知server进行rollback，server通知RM回滚后立马释放 branch的锁。
 消耗：1 + N的rpc操做 + N的回滚sql操做

因此总的来看fescar在commit的释放全局锁仍是很是高效的。

思考

1. server支持多台机器部署，应该如何改造？

    全局锁的问题，锁改造；
    全局事务向server0申请的，Branch1发到server1，branch2发到server2的问题，多机器恢复的状况，TC的改造

2. 全局锁在Fescar中更新确实是没有问题的，可是若是就是业务方须要手动调整DB数据呢？

    大胆猜想，依赖Fescar写了一个管理平台 用来执行sql的。哈哈

3. 隔离级别的思考
    Fescar默认工做在，本地事务读已提交，全局事务读未提交。
    是否存在全局事务必须工做在【读已提交】级别而不能工做在【读未提交】的业务场景呢？
    你们大胆脑洞 这个问题值得探讨。

4. Fescar的文档中说，是支持全局事务读已提交的，那么fescar是如何实现的呢？

   感兴趣的同窗能够试着读一下com.alibaba.fescar.rm.datasource.exec.SelectForUpdateExecutor

源码核心类

你们想读源码的话，能够重点关注一下几个类。有问题一块儿探讨。

TM相关
com.alibaba.fescar.tm.api.TransactionalTemplate

RM相关
com.alibaba.fescar.rm.datasource.exec.SelectForUpdateExecutor
com.alibaba.fescar.rm.datasource.ConnectionProxy
com.alibaba.fescar.rm.datasource.exec.AbstractDMLBaseExecutor
com.alibaba.fescar.rm.RMHandlerAT

TC相关
com.alibaba.fescar.server.coordinator.DefaultCoordinator
com.alibaba.fescar.server.coordinator.DefaultCore
com.alibaba.fescar.server.lock.DefaultLockManagerImpl

Github：https://github.com/alibaba/fescar
Fescar官方介绍：https://github.com/alibaba/fescar/wiki/Home_Chinese

每一个本地操做多这几步骤

1.select pk 2.lock local data 3.获取设置全局pk锁 rpc 4.释放 lock local data