MySQL中的事务和MVCC

时间 2020-04-17

标签 mysql 事务 mvcc 栏目 MySQL 繁體版

原文原文链接

本篇博客参考掘金小册——MySQL 是怎样运行的：从根儿上理解 MySQL数据库

虽然咱们不是DBA，可能对数据库没那么了解，可是对于数据库中的索引、事务、锁，咱们仍是必需要有一个较为浅显的认识，今天我就和你们聊聊事务。bash

为何要有事务

说到事务，不得不提到转帐的事情，几乎全部的关于事务的文章都会提到这个老掉牙的案例，我也不例外。服务器

转帐在数据库层面能够简单的抽象成两个部分：session

从本身的帐户中扣除转帐金额；
往对方帐户中增长转帐金额。

若是先从本身的帐户中扣除转帐金额，再往对方帐户中增长转帐金额，扣除执行成功，增长执行失败，那本身的帐户白白少了100块，欲哭无泪。架构

若是先往对方帐户中增长转帐金额，再从本身的帐户中扣除转帐金额，增长执行成功，扣除执行失败，那对方帐户白白增长了100块，本身的帐户也没有扣钱，喜大普奔。并发

不论是让你欲哭无泪，仍是喜大普奔，银行都不会容忍这样的事情发生，他们会引入事务来解决这类问题。性能

事务的特性

原子性（Atomicity）：事务包含的全部操做要么所有成功（提交），要么所有失败（回滚）。
一致性（Consistency）：事务的执行的先后数据的完整性保持一致。
隔离性（Isolation）：一个事务执行的过程当中，不该该受到其余事务的干扰。
持久性（Durability）：事务一旦结束，数据就持久到数据库，即便提交后，数据库发生崩溃，也不会丢失提交的数据。

四种特性，简称ACID，其中最很差理解的就是一致性，有很多人认为原子性、隔离性、持久性就是为了保证一致性，咱们也不搞学术研究，一致性到底该怎么解释，到底怎么定义一致性，就看各位看官的了。spa

事务的隔离级别

从某个角度来讲，咱们能够控制的、或者说须要研究的只有隔离性这一个特性，而要控制隔离性，几乎只有调整隔离级别这一个手段，下面咱们就来看看事务的隔离级别。翻译

数据库是一个客户端/服务器架构的软件，每一个客户端与服务器链接后，就会产生一个session（会话），客户端和服务器的交互就是在session中进行的，理论上来讲，若是服务器同时只能处理一个事务，其余的事务都排队等待，当该事务提交后，服务器才处理下一个事务，这样才真正具备“隔离性”，什么问题都没有了，可是若是是这样，性能就太差了，在性能和隔离性之间，只能作一些平衡，因此数据库提供了好几个隔离级别供咱们选择。指针

在讲隔离级别以前，咱们先来看看事务并发执行会遇到什么问题。

为了保证下面的叙述能够顺利进行，咱们要先建一张表：

CREATE TABLE `student` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(50) DEFAULT NULL COMMENT '姓名',
  `age` int(11) DEFAULT NULL COMMENT '年龄',
  `grade` int(11) DEFAULT NULL COMMENT '年级',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb4;
复制代码

脏写

如图所示：

sessionA和sessionB开启了一个事务；
sessionB把id=2的name修改为了“地底王”；
sessionA把id=2的name修改为了“梦境地底王”；
sessionB回滚了事务；
sessionA提交了事务。

若是sessionB在回滚事务的时候把sessionA的修改也给回滚了，致使sessionA的提交丢失了，这种现象就被称为“脏写”。sessionA会一脸懵逼，我明明修改了数据，也提交了数据，为何数据没有变化呢。

脏读

如图所示：

sessionA和sessionB开启了一个事务；
sessionB把id=2的name修改为了“地底王”，此时还未提交；
sessionA查询了id=2的数据，若是读出来的数据的name是“地底王”，也就是读到了sessionB尚未提交的数据，就被称为“脏读”。

不可重复读

如图所示：

sessionA和sessionB开启了一个事务；
sessionA查询id=2的数据，假如name是“地底王”，
sessionB把id=2的name修改为了“梦境地底王”，随后提交了事务；
sessionA再一次查询了id=2的数据，若是name是“梦境地底王”，说明在同一个事务中，sessionA先后读到的数据不一致，就被称为“不可重复读”。

幻读

如图所示：

sessionA和sessionB开启了一个事务；
sessionA查询name=“地底王”的数据，假设此时读到了一条记录；
sessionB又插入一条name=“地底王”的数据，随后提交；
seesionA再一次查询name=“地底王”的数据，若是此时读到了两条记录，第二次查询读到了第一次查询未查询出来的数据，就被称为“幻读”。

四种隔离级别

咱们知道了在并发执行事务的时候，会遇到什么问题，有些问题比较严重，有些问题比较轻微，通常来讲，咱们认为按照严重性排序是这样的：

脏写>脏读>不可重复读>幻读

在SQL标准定义中，设定了四种隔离级别，来解决上述的问题：

未提交读（READ UNCOMMITTED）：最低的隔离级别，会有“脏读”、“不可重复读”，“幻读”三个问题。
读已提交（READ COMMITTED）： SQLServer默认隔离级别，能够避免“脏读”，会有“不可重复读”，“幻读”两个问题。
可重复读（REPEATABLE READ）：能够避免“脏读”，“不可重复读”两个问题，会有“幻读”问题。 MySQL默认隔离级别，可是在MySQL中，此隔离级别解决了“幻读”问题。
串行化（SERIALIZABLE）：全部的问题都不会发生。

由于脏写的问题实在太严重了，在任何隔离级别下，都不会有脏写的问题。

MVCC

前面说的都是开胃菜，相信大部分小伙伴对于上述内容都是手到擒来，因此我连如何修改事务隔离级别都没有介绍，各类实验也都没有作，就是要把大量的时间、文字投入到这一部份内容中来。

MVCC，全称是Mutil-Version Concurrency Control，翻译成中文是多版本并发控制，MySQL就利用了MVCC来判断在一个事务中，哪一个数据能够被读出来，哪一个数据不能被读出来。

多版本

在看MVCC以前，咱们有必要知道另一个知识点，数据库存储一行行数据，是分为两个部分来存储的，一个是数据行的额外信息（本篇博客不涉及），一个是真实的数据记录，MySQL会为每一行真实数据记录添加两三个隐藏的字段：

row_id 非必须，若是表中有自定义的主键或者有Unique键，就不会添加row_id字段，若是二者都没有，MySQL会“自做主张”添加row_id字段。
transaction_id 必须，事务Id，表明这一行数据是由哪一个事务id建立的。
roll_pointer 必须，回滚指针，指向这行数据的上一个版本。

以下图所示：

在这里须要着重说明下事务id，当咱们开启一个事务，并不会立刻得到事务id，哪怕咱们在事务中执行select语句，也是没有事务id的（事务id为0），只有执行insert/update/delete语句才能得到事务id，这一点尤其重要。

其中和MVCC紧密相关的是transaction_id和roll_pointer两个字段，在开发过程当中，咱们无需关心，可是要研究MVCC，咱们必须关心。

若是有相似这样的一行数据：

表明这行数据是由transaction_id为9的事务建立出来的，roll_pointer是空的，由于这是一条新纪录。

实际上，roll_pointer并非空的，若是真要解释，须要绕一大圈，理解成空的，问题也不大。

当咱们开启事务，对这条数据进行修改，会变成这样：

有点感受了吧，这就像一个单向链表，称之为“版本链”，最上面的数据是这个数据的最新版本，roll_pointer指向这个数据的旧版本，给人的感受就是一行数据有多个版本，是否是符合“多版本并发控制”中的“多版本”这个概念，那么“并发控制”又是怎么作到的呢，别急，继续往下看。

ReadView

哎，下面又要引出一个新的概念：ReadView。

对于READ UNCOMMITTED来讲，能够读取到其余事务尚未提交的数据，因此直接把这个数据的最新版本读出来就能够了，对于SERIALIZABLE来讲，是用加锁的方式来访问记录。

剩下的就是READ COMMITTED和REPEATABLE READ，这两个事务隔离级别都要保证读到的数据是其余事务已经提交的，也就是不能无脑把一行数据的最新版本给读出来了，可是这两个仍是有必定的区别，最核心的问题就在于“我到底能够读取这个数据的哪一个版本”。

为了解决这个问题，ReadView的概念就出现了，ReadView包含四个比较重要的内容：

m_ids：表示在生成ReadView时，系统中活跃的事务id集合。
min_trx_id：表示在生成ReadView时，系统中活跃的最小事务id，也就是 m_ids中的最小值。
max_trx_id：表示在生成ReadView时，系统应该分配给下一个事务的id。
creator_trx_id：表示生成该ReadView的事务id。

有了这个ReadView，只要按照下面的判断方式就能够解决“我到底能够读取这个数据的哪一个版本”这个千古难题了：

若是被访问的版本的trx_id和ReadView中的creator_trx_id相同，就意味着当前版本就是由你“形成”的，能够读出来。
若是被访问的版本的trx_id小于ReadView中的min_trx_id，表示生成该版本的事务在建立ReadView的时候，已经提交了，因此该版本能够读出来。
若是被访问版本的trx_id大于或等于ReadView中的max_trx_id值，说明生成该版本的事务在当前事务生成ReadView后才开启，因此该版本不能够被读出来。
若是生成被访问版本的trx_id在min_trx_id和max_trx_id之间，那就须要判断下trx_id在不在m_ids中：若是在，说明建立ReadView的时候，生成该版本的事务仍是活跃的（没有被提交），该版本不能够被读出来；若是不在，说明建立ReadView的时候，生成该版本的事务已经被提交了，该版本能够被读出来。

若是某个数据的最新版本不能够被读出来，就顺着roll_pointer找到该数据的上一个版本，继续作如上的判断，以此类推，若是第一个版本也不可见的话，表明该数据对当前事务彻底不可见，查询结果就不包含这条记录了。

看完上面的描述，是否是以为“云里雾里”，“不知所云”，甚至“脑阔疼，整我的都很差了”。

咱们换个方法来解释，看会不会更容易理解点：

在事务启动的一瞬间（执行CURD操做），会建立出ReadView，对于一个数据版本的trx_id来讲，有如下三种状况：

若是落在低水位，表示生成这个版本的事务已经提交了，或者是当前事务本身生成的，这个版本可见。
若是落在高水位，表示生成这个版本的事务是将来才建立的，这个版本不可见。
若是落在中间水位，包含两种状况： a. 若是当前版本的trx_id在活跃事务列表中，表明这个版本是由尚未提交的事务生成的，这个版本不可见； b. 若是当前版本的trx_id不在活跃事务列表中，表明这个版本是由已经提交的事务生成的，这个版本可见。

上面我比较简单的解释了下ReadView，用了两种方式来讲明如何判断当前数据版本是否可见，不知道各位看官是否是有了一个比较模糊的概念，有了ReadView的基本概念，咱们就能够具体看下READ COMMITTED、REPEATABLE READ这两个事务隔离级别为何读到的数据是不一样的，以及上述规则是如何应用的。

READ COMMITTED——每次读取数据都会建立ReadView

假设，如今系统只有一个活跃的事务T，事务id是100，事务中修改了数据，可是尚未提交，造成的版本链是这样的：

如今A事务启动，而且执行了select语句，此时会建立出一个ReadView，m_ids是【100】，min_trx_id是100， max_trx_id是101，creator_trx_id是0。

为何m_ids只有一个，为何creator_trx_id是0？这里再次强调下，只有在事务中执行insert/update/delete语句才能得到事务id。

那么A事务执行的select语句会读到什么数据呢？

判断最新的数据版本，name是“梦境地底王”，对应的trx_id是100，trx_id在m_ids里面，说明当前事务是活跃事务，这个数据版本是由尚未提交的事务建立的，因此这个版本不可见。
顺着roll_pointer找到这个数据的上一个版本，name是“地底王”，对应的trx_id是99，而ReadView中的min_trx_id是100，trx_id<min_trx_id，表明当前数据版本是由已经提交的事务建立的，该版本可见。

因此读到的数据的name是“地底王”。

咱们把事务T提交了，事务A再次执行select语句，此时，事务A再次建立出ReadView，m_ids是【】，min_trx_id是0， max_trx_id是101，creator_trx_id是0。

由于事务T已经提交了，因此没有活跃的事务。

那么事务A第二次执行select语句又会读到什么数据呢？

判断最新的数据版本，name是“梦境地底王”，对应的trx_id是100，不在m_ids里面，说明这个数据版本是由已经提交的事务建立的，该版本可见。

因此读到的数据的name是“梦境地底王”。

REPEATABLE READ ——首次读取数据会建立ReadView

假设，如今系统只有一个活跃的事务T，事务id是100，事务中修改了数据，可是尚未提交，造成的版本链是这样的：

如今A事务启动，而且执行了select语句，此时会建立出一个ReadView，m_ids是【100】，min_trx_id是100， max_trx_id是101，creator_trx_id是0。

那么A事务执行的select语句会读到什么数据呢？

判断最新的数据版本，name是“梦境地底王”，对应的trx_id是100，trx_id在m_ids里面，说明当前事务是活跃事务，这个数据版本是由尚未提交的事务建立的，因此这个版本不可见。
顺着roll_ponit找到这个数据的上一个版本，name是“地底王”，对应的trx_id是99，而ReadView中的min_trx_id是100，trx_id<min_trx_id，表明当前数据版本是由已经提交的事务建立的，该版本可见。

因此读到的数据的name是“地底王”。

细心的你，必定发现了，这里我就是复制粘贴，由于在REPEATABLE READ事务隔离级别下，事务A首次执行select语句建立出来的ReadView和在READ COMMITTED事务隔离级别下，事务A首次执行select语句建立出来的ReadView是同样的，因此判断流程也是同样的，因此我就偷懒了，copy走起。

随后，事务T提交了事务，因为REPEATABLE READ是首次读取数据才会建立ReadView，因此事务A再次执行select语句，不会再建立ReadView，用的仍是上一次的ReadView，因此判断流程和上面也是同样的，因此读到的name仍是“地底王”。

本篇博客到这里就结束了。