『浅入深出』MySQL 中事务的实现

在关系型数据库中,事务的重要性不言而喻,只要对数据库稍有了解的人都知道事务具备 ACID 四个基本属性,而咱们不知道的可能就是数据库是如何实现这四个属性的;在这篇文章中,咱们将对事务的实现进行分析,尝试理解数据库是如何实现事务的,固然咱们也会在文章中简单对 MySQL 中对 ACID 的实现进行简单的介绍。html

Transaction-Basics

事务其实就是并发控制的基本单位;相信咱们都知道,事务是一个序列操做,其中的操做要么都执行,要么都不执行,它是一个不可分割的工做单位;数据库事务的 ACID 四大特性是事务的基础,了解了 ACID 是如何实现的,咱们也就清除了事务的实现,接下来咱们将依次介绍数据库是如何实现这四个特性的。mysql

原子性

在学习事务时,常常有人会告诉你,事务就是一系列的操做,要么所有都执行,要都不执行,这其实就是对事务原子性的刻画;虽然事务具备原子性,可是原子性并非只与事务有关系,它的身影在不少地方都会出现。git

Atomic-Operation

因为操做并不具备原子性,而且能够再分为多个操做,当这些操做出现错误或抛出异常时,整个操做就可能不会继续执行下去,而已经进行的操做形成的反作用就可能形成数据更新的丢失或者错误。github

事务其实和一个操做没有什么太大的区别,它是一系列的数据库操做(能够理解为 SQL)的集合,若是事务不具有原子性,那么就没办法保证同一个事务中的全部操做都被执行或者未被执行了,整个数据库系统就既不可用也不可信。sql

回滚日志

想要保证事务的原子性,就须要在异常发生时,对已经执行的操做进行回滚,而在 MySQL 中,恢复机制是经过回滚日志(undo log)实现的,全部事务进行的修改都会先记录到这个回滚日志中,而后在对数据库中的对应行进行写入。数据库

Transaction-Undo-Log

这个过程其实很是好理解,为了可以在发生错误时撤销以前的所有操做,确定是须要将以前的操做都记录下来的,这样在发生错误时才能够回滚。编程

回滚日志除了可以在发生错误或者用户执行 ROLLBACK 时提供回滚相关的信息,它还可以在整个系统发生崩溃、数据库进程直接被杀死后,当用户再次启动数据库进程时,还可以马上经过查询回滚日志将以前未完成的事务进行回滚,这也就须要回滚日志必须先于数据持久化到磁盘上,是咱们须要先写日志后写数据库的主要缘由。缓存

回滚日志并不能将数据库物理地恢复到执行语句或者事务以前的样子;它是逻辑日志,当回滚日志被使用时,它只会按照日志逻辑地将数据库中的修改撤销掉看,能够理解为,咱们在事务中使用的每一条 INSERT 都对应了一条 DELETE,每一条 UPDATE 也都对应一条相反的 UPDATE 语句。安全

Logical-Undo-Log

在这里,咱们并不会介绍回滚日志的格式以及它是如何被管理的,本文重点关注在它究竟是一个什么样的东西,究竟解决了、如何解决了什么样的问题,若是想要了解具体实现细节的读者,相信网络上关于回滚日志的文章必定很多。服务器

事务的状态

由于事务具备原子性,因此从远处看的话,事务就是密不可分的一个总体,事务的状态也只有三种:Active、Commited 和 Failed,事务要不就在执行中,要否则就是成功或者失败的状态:

Atomitc-Transaction-State

可是若是放大来看,咱们会发现事务再也不是原子的,其中包括了不少中间状态,好比部分提交,事务的状态图也变得愈来愈复杂。

Nonatomitc-Transaction-State

事务的状态图以及状态的描述取自 Database System Concepts 一书中第 14 章的内容。

  • Active:事务的初始状态,表示事务正在执行;
  • Partially Commited:在最后一条语句执行以后;
  • Failed:发现事务没法正常执行以后;
  • Aborted:事务被回滚而且数据库恢复到了事务进行以前的状态以后;
  • Commited:成功执行整个事务;

虽然在发生错误时,整个数据库的状态能够恢复,可是若是咱们在事务中执行了诸如:向标准输出打印日志、向外界发出邮件、没有经过数据库修改了磁盘上的内容甚至在事务执行期间发生了转帐汇款,那么这些操做做为可见的外部输出都是没有办法回滚的;这些问题都是由应用开发者解决和负责的,在绝大多数状况下,咱们都须要在整个事务提交后,再触发相似的没法回滚的操做。

Shutdown-After-Commited

以订票为例,哪怕咱们在整个事务结束以后,才向第三方发起请求,因为向第三方请求并获取结果是一个须要较长事件的操做,若是在事务刚刚提交时,数据库或者服务器发生了崩溃,那么咱们就很是有可能丢失发起请求这一过程,这就形成了很是严重的问题;而这一点就不是数据库所能保证的,开发者须要在适当的时候查看请求是否被发起、结果是成功仍是失败。

并行事务的原子性

到目前为止,全部的事务都只是串行执行的,一直都没有考虑过并行执行的问题;然而在实际工做中,并行执行的事务才是常态,然而并行任务下,却可能出现很是复杂的问题:

Nonrecoverable-Schedule

当 Transaction1 在执行的过程当中对 id = 1 的用户进行了读写,可是没有将修改的内容进行提交或者回滚,在这时 Transaction2 对一样的数据进行了读操做并提交了事务;也就是说 Transaction2 是依赖于 Transaction1 的,当 Transaction1 因为一些错误须要回滚时,由于要保证事务的原子性,须要对 Transaction2 进行回滚,可是因为咱们已经提交了 Transaction2,因此咱们已经没有办法进行回滚操做,在这种问题下咱们就发生了问题,Database System Concepts 一书中将这种现象称为不可恢复安排(Nonrecoverable Schedule),那什么状况下是能够恢复的呢?

A recoverable schedule is one where, for each pair of transactions Ti and Tj such that Tj reads a data item previously written by Ti , the commit operation of Ti appears before the commit operation of Tj .

简单理解一下,若是 Transaction2 依赖于事务 Transaction1,那么事务 Transaction1 必须在 Transaction2 提交以前完成提交的操做:

Recoverable-Schedule

然而这样还不算完,当事务的数量逐渐增多时,整个恢复流程也会变得愈来愈复杂,若是咱们想要从事务发生的错误中恢复,也不是一件那么容易的事情。

Cascading-Rollback

在上图所示的一次事件中,Transaction2 依赖于 Transaction1,而 Transaction3 又依赖于 Transaction1,当 Transaction1 因为执行出现问题发生回滚时,为了保证事务的原子性,就会将 Transaction2 和 Transaction3 中的工做所有回滚,这种状况也叫作级联回滚(Cascading Rollback),级联回滚的发生会致使大量的工做须要撤回,是咱们难以接受的,不过若是想要达到绝对的原子性,这件事情又是不得不去处理的,咱们会在文章的后面具体介绍如何处理并行事务的原子性。

持久性

既然是数据库,那么必定对数据的持久存储有着很是强烈的需求,若是数据被写入到数据库中,那么数据必定可以被安全存储在磁盘上;而事务的持久性就体如今,一旦事务被提交,那么数据必定会被写入到数据库中并持久存储起来。

Compensating-Transaction

当事务已经被提交以后,就没法再次回滚了,惟一可以撤回已经提交的事务的方式就是建立一个相反的事务对原操做进行『补偿』,这也是事务持久性的体现之一。

重作日志

与原子性同样,事务的持久性也是经过日志来实现的,MySQL 使用重作日志(redo log)实现事务的持久性,重作日志由两部分组成,一是内存中的重作日志缓冲区,由于重作日志缓冲区在内存中,因此它是易失的,另外一个就是在磁盘上的重作日志文件,它是持久的。

Redo-Logging

当咱们在一个事务中尝试对数据进行修改时,它会先将数据从磁盘读入内存,并更新内存中缓存的数据,而后生成一条重作日志并写入重作日志缓存,当事务真正提交时,MySQL 会将重作日志缓存中的内容刷新到重作日志文件,再将内存中的数据更新到磁盘上,图中的第 四、5 步就是在事务提交时执行的。

在 InnoDB 中,重作日志都是以 512 字节的块的形式进行存储的,同时由于块的大小与磁盘扇区大小相同,因此重作日志的写入能够保证原子性,不会因为机器断电致使重作日志仅写入一半并留下脏数据。

除了全部对数据库的修改会产生重作日志,由于回滚日志也是须要持久存储的,它们也会建立对应的重作日志,在发生错误后,数据库重启时会从重作日志中找出未被更新到数据库磁盘中的日志从新执行以知足事务的持久性。

回滚日志和重作日志

到如今为止咱们了解了 MySQL 中的两种日志,回滚日志(undo log)和重作日志(redo log);在数据库系统中,事务的原子性和持久性是由事务日志(transaction log)保证的,在实现时也就是上面提到的两种日志,前者用于对事务的影响进行撤销,后者在错误处理时对已经提交的事务进行重作,它们能保证两点:

  1. 发生错误或者须要回滚的事务可以成功回滚(原子性);
  2. 在事务提交后,数据没来得及写会磁盘就宕机时,在下次从新启动后可以成功恢复数据(持久性);

在数据库中,这两种日志常常都是一块儿工做的,咱们能够将它们总体看作一条事务日志,其中包含了事务的 ID、修改的行元素以及修改先后的值。

Transaction-Log

一条事务日志同时包含了修改先后的值,可以很是简单的进行回滚和重作两种操做,在这里咱们也不会对重作和回滚日志展开进行介绍,可能会在以后的文章谈一谈数据库系统的恢复机制时提到两种日志的使用。

隔离性

其实做者在以前的文章 『浅入浅出』MySQL 和 InnoDB 就已经介绍过数据库事务的隔离性,不过为了保证文章的独立性和完整性,咱们还会对事务的隔离性进行介绍,介绍的内容可能稍微有所不一样。

事务的隔离性是数据库处理数据的几大基础之一,若是没有数据库的事务之间没有隔离性,就会发生在 并行事务的原子性 一节中提到的级联回滚等问题,形成性能上的巨大损失。若是全部的事务的执行顺序都是线性的,那么对于事务的管理容易得多,可是容许事务的并行执行却能可以提高吞吐量和资源利用率,而且能够减小每一个事务的等待时间。

Reasons-for-Allowing-Concurrency

当多个事务同时并发执行时,事务的隔离性可能就会被违反,虽然单个事务的执行可能没有任何错误,可是从整体来看就会形成数据库的一致性出现问题,而串行虽然可以容许开发者忽略并行形成的影响,可以很好地维护数据库的一致性,可是却会影响事务执行的性能。

事务的隔离级别

因此说数据库的隔离性和一致性实际上是一个须要开发者去权衡的问题,为数据库提供什么样的隔离性层级也就决定了数据库的性能以及能够达到什么样的一致性;在 SQL 标准中定义了四种数据库的事务的隔离级别:READ UNCOMMITEDREAD COMMITEDREPEATABLE READ 和 SERIALIZABLE;每一个事务的隔离级别其实都比上一级多解决了一个问题:

  • RAED UNCOMMITED:使用查询语句不会加锁,可能会读到未提交的行(Dirty Read);
  • READ COMMITED:只对记录加记录锁,而不会在记录之间加间隙锁,因此容许新的记录插入到被锁定记录的附近,因此再屡次使用查询语句时,可能获得不一样的结果(Non-Repeatable Read);
  • REPEATABLE READ:屡次读取同一范围的数据会返回第一次查询的快照,不会返回不一样的数据行,可是可能发生幻读(Phantom Read);
  • SERIALIZABLE:InnoDB 隐式地将所有的查询语句加上共享锁,解决了幻读的问题;

以上的全部的事务隔离级别都不容许脏写入(Dirty Write),也就是当前事务更新了另外一个事务已经更新可是还未提交的数据,大部分的数据库中都使用了 READ COMMITED 做为默认的事务隔离级别,可是 MySQL 使用了 REPEATABLE READ 做为默认配置;从 RAED UNCOMMITED 到 SERIALIZABLE,随着事务隔离级别变得愈来愈严格,数据库对于并发执行事务的性能也逐渐降低。

Isolation-Performance

对于数据库的使用者,从理论上说,并不须要知道事务的隔离级别是如何实现的,咱们只须要知道这个隔离级别解决了什么样的问题,可是不一样数据库对于不一样隔离级别的是实现细节在不少时候都会让咱们遇到意料以外的坑。

若是读者不了解脏读、不可重复读和幻读到底是什么,能够阅读以前的文章 『浅入浅出』MySQL 和 InnoDB,在这里咱们仅放一张图来展现各个隔离层级对这几个问题的解决状况。

Transaction-Isolation-Matrix

隔离级别的实现

数据库对于隔离级别的实现就是使用并发控制机制对在同一时间执行的事务进行控制,限制不一样的事务对于同一资源的访问和更新,而最重要也最多见的并发控制机制,在这里咱们将简单介绍三种最重要的并发控制器机制的工做原理。

锁是一种最为常见的并发控制机制,在一个事务中,咱们并不会将整个数据库都加锁,而是只会锁住那些须要访问的数据项, MySQL 和常见数据库中的锁都分为两种,共享锁(Shared)和互斥锁(Exclusive),前者也叫读锁,后者叫写锁。

Shared-Exclusive-Lock

读锁保证了读操做能够并发执行,相互不会影响,而写锁保证了在更新数据库数据时不会有其余的事务访问或者更改同一条记录形成不可预知的问题。

时间戳

除了锁,另外一种实现事务的隔离性的方式就是经过时间戳,使用这种方式实现事务的数据库,例如 PostgreSQL 会为每一条记录保留两个字段;读时间戳中报错了全部访问该记录的事务中的最大时间戳,而记录行的写时间戳中保存了将记录改到当前值的事务的时间戳。

Timestamps-Record

使用时间戳实现事务的隔离性时,每每都会使用乐观锁,先对数据进行修改,在写回时再去判断当前值,也就是时间戳是否改变过,若是没有改变过,就写入,不然,生成一个新的时间戳并再次更新数据,乐观锁其实并非真正的锁机制,它只是一种思想,在这里并不会对它进行展开介绍。

多版本和快照隔离

经过维护多个版本的数据,数据库能够容许事务在数据被其余事务更新时对旧版本的数据进行读取,不少数据库都对这一机制进行了实现;由于全部的读操做再也不须要等待写锁的释放,因此可以显著地提高读的性能,MySQL 和 PostgreSQL 都对这一机制进行本身的实现,也就是 MVCC,虽然各自实现的方式有所不一样,MySQL 就经过文章中提到的回滚日志实现了 MVCC,保证事务并行执行时可以不等待互斥锁的释放直接获取数据。

隔离性与原子性

在这里就须要简单提一下在在原子性一节中遇到的级联回滚等问题了,若是一个事务对数据进行了写入,这时就会获取一个互斥锁,其余的事务就想要得到改行数据的读锁就必须等待写锁的释放,天然就不会发生级联回滚等问题了。

Shared-Lock-and-Atomicity

不过在大多数的数据库,好比 MySQL 中都使用了 MVCC 等特性,也就是正常的读方法是不须要获取锁的,在想要对读取的数据进行更新时须要使用 SELECT ... FOR UPDATE 尝试获取对应行的互斥锁,以保证不一样事务能够正常工做。

一致性

做者认为数据库的一致性是一个很是让人迷惑的概念,缘由是数据库领域其实包含两个一致性,一个是 ACID 中的一致性、另外一个是 CAP 定义中的一致性。

ACID-And-CAP

这两个数据库的一致性说的彻底不是一个事情,不少不少人都对这二者的概念有很是深的误解,当咱们在讨论数据库的一致性时,必定要清楚上下文的语义是什么,尽可能明确的问出咱们要讨论的究竟是 ACID 中的一致性仍是 CAP 中的一致性。

ACID

数据库对于 ACID 中的一致性的定义是这样的:若是一个事务原子地在一个一致地数据库中独立运行,那么在它执行以后,数据库的状态必定是一致的。对于这个概念,它的第一层意思就是对于数据完整性的约束,包括主键约束、引用约束以及一些约束检查等等,在事务的执行的先后以及过程当中不会违背对数据完整性的约束,全部对数据库写入的操做都应该是合法的,并不能产生不合法的数据状态。

A transaction must preserve database consistency - if a transaction is run atomically in isolation starting from a consistent database, the database must again be consistent at the end of the transaction.

咱们能够将事务理解成一个函数,它接受一个外界的 SQL 输入和一个一致的数据库,它必定会返回一个一致的数据库。

Transaction-Consistency

而第二层意思实际上是指逻辑上的对于开发者的要求,咱们要在代码中写出正确的事务逻辑,好比银行转帐,事务中的逻辑不可能只扣钱或者只加钱,这是应用层面上对于数据库一致性的要求。

Ensuring consistency for an individual transaction is the responsibility of the application programmer who codes the transaction. - Database System Concepts

数据库 ACID 中的一致性对事务的要求不止包含对数据完整性以及合法性的检查,还包含应用层面逻辑的正确。

CAP 定理中的数据一致性,实际上是说分布式系统中的各个节点中对于同一数据的拷贝有着相同的值;而 ACID 中的一致性是指数据库的规则,若是 schema 中规定了一个值必须是惟一的,那么一致的系统必须确保在全部的操做中,该值都是惟一的,由此来看 CAP 和 ACID 对于一致性的定义有着根本性的区别。

总结

事务的 ACID 四大基本特性是保证数据库可以运行的基石,可是彻底保证数据库的 ACID,尤为是隔离性会对性能有比较大影响,在实际的使用中咱们也会根据业务的需求对隔离性进行调整,除了隔离性,数据库的原子性和持久性相信都是比较好理解的特性,前者保证数据库的事务要么所有执行、要么所有不执行,后者保证了对数据库的写入都是持久存储的、非易失的,而一致性不只是数据库对自己数据的完整性的要求,同时也对开发者提出了要求 - 写出逻辑正确而且合理的事务。

最后,也是最重要的,当别人在将一致性的时候,必定要搞清楚他的上下文,若是对文章的内容有疑问,能够在评论中留言。

References

 

原文连接:『浅入深出』MySQL 中事务的实现 · 面向信仰编程

Follow: Draveness · GitHub

相关文章
相关标签/搜索