MySQL实战45讲学习笔记：第七讲

时间 2019-11-07

标签 mysql 实战学习笔记第七栏目 MySQL 繁體版

原文原文链接

1、上节回顾今日计划

在上一篇文章中，我跟你介绍了 MySQL 的全局锁和表级锁，今天咱们就来说讲 MySQL的行锁。mysql

MySQL 的行锁是在引擎层由各个引擎本身实现的。但并非全部的引擎都支持行锁，好比 MyISAM 引擎就不支持行锁。不支持行锁意味着并发控制只能使用表锁，对于这种引
擎的表，同一张表上任什么时候刻只能有一个更新在执行，这就会影响到业务并发度。InnoDB是支持行锁的，这也是 MyISAM 被 InnoDB 替代的重要缘由之一。sql

咱们今天就主要来聊聊 InnoDB 的行锁，以及如何经过减小锁冲突来提高业务并发度。数据库

顾名思义，行锁就是针对数据表中行记录的锁。这很好理解，好比事务 A 更新了一行，而这时候事务 B 也要更新同一行，则必须等事务 A 的操做完成后才能进行更新。bash

固然，数据库中还有一些没那么一目了然的概念和设计，这些概念若是理解和使用不当，容易致使程序出现非预期行为，好比两阶段锁。服务器

2、从两阶段锁提及

一、持有哪些锁，以及在何时释放

我先给你举个例子。在下面的操做序列中，事务 B 的 update 语句执行时会是什么现象呢？假设字段 id 是表 t 的主键。并发

这个问题的结论取决于事务 A 在执行完两条 update 语句后，持有哪些锁，以及在何时释放。你能够验证一下：实际上事务 B 的 update 语句会被阻塞，直到事务 A 执行
commit 以后，事务 B 才能继续执行。性能

知道了这个答案，你必定知道了事务 A 持有的两个记录的行锁，都是在 commit 的时候才释放的。优化

也就是说，在 InnoDB 事务中，行锁是在须要的时候才加上的，但并非不须要了就马上释放，而是要等到事务结束时才释放。这个就是两阶段锁协议。spa

二、若是你的事务中须要锁多个行，要把最可能形成锁冲突、最可能影响并发度的锁尽可能日后放。

知道了这个设定，对咱们使用事务有什么帮助呢？那就是，若是你的事务中须要锁多个行，要把最可能形成锁冲突、最可能影响并发度的锁尽可能日后放。我给你举个例子。线程

假设你负责实现一个电影票在线交易业务，顾客 A 要在影院 B 购买电影票。咱们简化一点，这个业务须要涉及到如下操做：

1. 从顾客 A 帐户余额中扣除电影票价；
2. 给影院 B 的帐户余额增长这张电影票价；
3. 记录一条交易日志。

也就是说，要完成这个交易，咱们须要 update 两条记录，并 insert 一条记录。固然，为了保证交易的原子性，咱们要把这三个操做放在一个事务中。那么，你会怎样安排这三个
语句在事务中的顺序呢？

一、咱们要把这三个操做放在一个事务中你会怎样安排这三个语句在事务中的顺序呢？

试想若是同时有另一个顾客 C 要在影院 B 买票，那么这两个事务冲突的部分就是语句 2了。由于它们要更新同一个影院帐户的余额，须要修改同一行数据。

根据两阶段锁协议，不论你怎样安排语句顺序，全部的操做须要的行锁都是在事务提交的时候才释放的。因此，若是你把语句 2 安排在最后，好比按照三、一、2 这样的顺序，
那么影院帐户余额这一行的锁时间就最少。这就最大程度地减小了事务之间的锁等待，提高了并发度。

二、最大程度地减小了事务之间的锁等待，提高了

好了，如今因为你的正确设计，影院余额这一行的行锁在一个事务中不会停留很长时间。可是，这并无彻底解决你的困扰。

若是这个影院作活动，能够低价预售一年内全部的电影票，并且这个活动只作一天。因而在活动时间开始的时候，你的 MySQL 就挂了。你登上服务器一看，CPU 消耗接近
100%，但整个数据库每秒就执行不到 100 个事务。这是什么缘由呢？这里，我就要说到死锁和死锁检测了。

3、死锁和死锁检测

当并发系统中不一样线程出现循环资源依赖，涉及的线程都在等待别的线程释放资源时，就会致使这几个线程都进入无限等待的状态，称为死锁。这里我用数据库中的行锁举个例子。

这时候，事务 A 在等待事务 B 释放 id=2 的行锁，而事务 B 在等待事务 A 释放 id=1 的行锁。事务 A 和事务 B 在互相等待对方的资源释放，就是进入了死锁状态。当出现死锁
之后，有两种策略：

一、进入了死锁状态。当出现死锁之后，有两种策略

一种策略是，直接进入等待，直到超时。这个超时时间能够经过参数innodb_lock_wait_timeout 来设置。

另外一种策略是，发起死锁检测，发现死锁后，主动回滚死锁链条中的某一个事务，让其余事务得以继续执行。将参数 innodb_deadlock_detect 设置为 on，表示开启这个逻辑。

一、InnoDB 中，innodb_lock_wait_timeout 的默认值是？

在 InnoDB 中，innodb_lock_wait_timeout 的默认值是 50s

二、innodb_lock_wait_timeout 设置大小的影响

在 InnoDB 中，innodb_lock_wait_timeout 的默认值是 50s，意味着若是采用第一个策略，当出现死锁之后，第一个被锁住的线程要过 50s 才会超时退出，而后其余线程才有可
能继续执行。对于在线服务来讲，这个等待时间每每是没法接受的。

可是，咱们又不可能直接把这个时间设置成一个很小的值，好比 1s。这样当出现死锁的时候，确实很快就能够解开，但若是不是死锁，而是简单的锁等待呢？因此，超时时间设置
过短的话，会出现不少误伤。

二、正常状况下咱们采用第二种策略

因此，正常状况下咱们仍是要采用第二种策略，即：主动死锁检测，并且innodb_deadlock_detect 的默认值自己就是 on。主动死锁检测在发生死锁的时候，是
可以快速发现并进行处理的，可是它也是有额外负担的。
你能够想象一下这个过程：每当一个事务被锁的时候，就要看看它所依赖的线程有没有被别人锁住，如此循环，最后判断是否出现了循环等待，也就是死锁。

三、那若是是咱们上面说到的全部事务都要更新同一行的场景呢？

一、第二种策略存在的问题

每一个新来的被堵住的线程，都要判断会不会因为本身的加入致使了死锁，这是一个时间复
杂度是 O(n) 的操做。假设有 1000 个并发线程要同时更新同一行，那么死锁检测操做就
是 100 万这个量级的。虽然最终检测的结果是没有死锁，可是这期间要消耗大量的 CPU
资源。所以，你就会看到 CPU 利用率很高，可是每秒却执行不了几个事务。

根据上面的分析，咱们来讨论一下，怎么解决由这种热点行更新致使的性能问题呢？问题
的症结在于，死锁检测要耗费大量的 CPU 资源

二、一种头痛医头的方法，就是若是你能确保这个业务必定不会出现死锁，能够临时把死锁检测关掉

一种头痛医头的方法，就是若是你能确保这个业务必定不会出现死锁，能够临时把死锁检测关掉。可是这种操做自己带有必定的风险，由于业务设计的时候通常不会把死锁当作一
个严重错误，毕竟出现死锁了，就回滚，而后经过业务重试通常就没问题了，这是业务无损的。而关掉死锁检测意味着可能会出现大量的超时，这是业务有损的。

三、另外一个思路是控制并发度

另外一个思路是控制并发度。根据上面的分析，你会发现若是并发可以控制住，好比同一行同时最多只有 10 个线程在更新，那么死锁检测的成本很低，就不会出现这个问题。一个
直接的想法就是，在客户端作并发控制。可是，你会很快发现这个方法不太可行，由于客户端不少。我见过一个应用，有 600 个客户端，这样即便每一个客户端控制到只有 5 个并发
线程，汇总到数据库服务端之后，峰值并发数也可能要达到 3000。

所以，这个并发控制要作在

一、数据库服务端。

二、若是你有中间件，能够考虑在中间件实现；

三、若是你的团队有能修改 MySQL 源码的人，也能够作在 MySQL 里面。

基本思路就是，对于相同行的更新，在进入引擎以前排队。这样在 InnoDB 内部就不会有大量的死锁检测工做了

四、若是团队里暂时没有数据库方面的专家，不能实现这样的方案，能不能从设计上优化这个问题呢？

你能够考虑经过将一行改为逻辑上的多行来减小锁冲突。仍是以影院帐户为例，能够考虑放在多条记录上，好比 10 个记录，影院的帐户总额等于这 10 个记录的值的总和。这样每
次要给影院帐户加金额的时候，随机选其中一条记录来加。这样每次冲突几率变成原来的1/10，能够减小锁等待个数，也就减小了死锁检测的 CPU 消耗。

这个方案看上去是无损的，但其实这类方案须要根据业务逻辑作详细设计。若是帐户余额可能会减小，好比退票逻辑，那么这时候就须要考虑当一部分行记录变成 0 的时候，代码
要有特殊处理。

4、小结

今天，我和你介绍了 MySQL 的行锁，涉及了两阶段锁协议、死锁和死锁检测这两大部份内容。

其中，我以两阶段协议为起点，和你一块儿讨论了在开发的时候如何安排正确的事务语句。这里的原则 / 我给你的建议是：若是你的事务中须要锁多个行，要把最可能形成锁冲突、
最可能影响并发度的锁的申请时机尽可能日后放。

可是，调整语句顺序并不能彻底避免死锁。因此咱们引入了死锁和死锁检测的概念，以及提供了三个方案，来减小死锁对数据库的影响。减小死锁的主要方向，就是控制访问相同
资源的并发事务量。

最后，我给你留下一个问题吧。若是你要删除一个表里面的前 10000 行数据，有如下三种方法能够作到：

第一种，直接执行 delete from T limit 10000;
第二种，在一个链接中循环执行 20 次 delete from T limit 500;
第三种，在 20 个链接中同时执行 delete from T limit 500。

你会选择哪种方法呢？为何呢？

你能够把你的思考和观点写在留言区里，我会在下一篇文章的末尾和你讨论这个问题。感谢你的收听，也欢迎你把这篇文章分享给更多的朋友一块儿阅读。

5、上期问题时间

上期我给你留的问题是：当备库用–single-transaction 作逻辑备份的时候，若是从主库的binlog 传来一个 DDL 语句会怎么样？
假设这个 DDL 是针对表 t1 的，这里我把备份过程当中几个关键的语句列出来：

Q1:SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ;
Q2:START TRANSACTION  WITH CONSISTENT SNAPSHOT；
/* other tables */
Q3:SAVEPOINT sp;
/* 时刻 1 */
Q4:show create table `t1`;
/* 时刻 2 */
Q5:SELECT * FROM `t1`;
/* 时刻 3 */
Q6:ROLLBACK TO SAVEPOINT sp;
/* 时刻 4 */
/* other tables */

在备份开始的时候，为了确保 RR（可重复读）隔离级别，再设置一次 RR 隔离级别 (Q1);启动事务，这里用 WITH CONSISTENT SNAPSHOT 确保这个语句执行完就能够获得一个
一致性视图（Q2)；设置一个保存点，这个很重要（Q3）；

show create 是为了拿到表结构 (Q4)，而后正式导数据（Q5），回滚到 SAVEPOINTsp，在这里的做用是释放 t1 的 MDL 锁（Q6）。固然这部分属于“超纲”，上文正文里面都没提到。
DDL 从主库传过来的时间按照效果不一样，我打了四个时刻。题目设定为小表，咱们假定到达后，若是开始执行，则很快可以执行完成。

参考答案以下：

1. 若是在 Q4 语句执行以前到达，现象：没有影响，备份拿到的是 DDL 后的表结构。2. 若是在“时刻 2”到达，则表结构被改过，Q5 执行的时候，报 Table definition haschanged, please retry transaction，现象：mysqldump 终止；3. 若是在“时刻 2”和“时刻 3”之间到达，mysqldump 占着 t1 的 MDL 读锁，binlog被阻塞，现象：主从延迟，直到 Q6 执行完成。4. 从“时刻 4”开始，mysqldump 释放了 MDL 读锁，现象：没有影响，备份拿到的是DDL 前的表结构。