高性能MySQL之基础架构

1、背景

当你手中抓住一件东西不放时，你只能拥有一件东西，若是你肯放手，你就有机会选择更多。与其在别人的生活里跑龙套，不如精彩作本身。人无所舍，必无所成。跌倒了，失去了，没关系，爬起来继续风雨兼程，且歌且行。html

为何咱们须要先学习MYSQL的基础架构先呢？mysql

缘由很简单，当咱们须要了解一件事物的时候，咱们只有站在宏观的层面，才能层层剥丝抽茧的去理解问题。举个例子，咱们要看一个框架的源码，一开始就想进去研究，却发现找不着北，缘由很简单，由于咱们没有鸟瞰全貌，咱们根本不知道入口在哪里。所以咱们学习MYSQL的时候也是这样。先从高纬度理解问题，最后看到里面有哪些组件，一层层的拆解，这样让咱们对mysql有更深刻的理解。废话很少说，咱们先看整体的逻辑架构图，以下所示。sql

2、Mysql整体逻辑架构

从图中不难看出，不一样的存储引擎共用一个Server层，也就是从链接器到执行器的部分。能够看到Server层包括链接器、查询缓存、分析器、优化器、执行器等，涵盖MySQL的大多数核心服务功能，以及全部的内置函数（如日期、时间、数学和加密函数等），全部跨存储引擎的功能都在这一层实现，好比触发器、视图等。数据库

须要主意的是存储引擎层负责数据的存储和提取。其架构模式是插件式的，支持InnoDB、MyISAM、Memory等多个存储引擎。如今最经常使用的存储引擎是InnoDB，它从MySQL 5.5.5版本开始成为了默认存储引擎。这也说明了你create table建表的时候，若是不指定引擎类型，默认使用的就是InnoDB。固然你也能够指定存储引擎，例如create table语句中使用engine=memory, 来指定使用内存引擎建立表。接下来咱们一个一个看各个组件的各自做用以及一条sql在整个架构的执行流程。缓存

2、链接器

当咱们要执行 select * from T where ID=1；这条语句的时候，首先固然是链接器帮咱们负责跟客户端创建链接，获取权限、位置和管理链接。链接命令以下：服务器

mysql -h$ip -P$port -u$user -p

输完命令以后，接下来就是经典的TCP握手了，链接器就要开始认证你的身份，这个时候用的就是你输入的用户名和密码。虽然密码也能够直接跟在-p后面写在命令行中，但这样可能会致使你的密码泄露。若是你连的是生产服务器，前往不要这么作，这是生产上的禁忌。若是用户名密码认证经过，链接器会到权限表里面查出你拥有的权限。以后，这个链接里面的权限判断逻辑，都将依赖于此时读到的权限。这就意味着，一个用户成功创建链接后，即便你用管理员帐号对这个用户的权限作了修改，也不会影响已经存在链接的权限。修改完成后，只有再新建的链接才会使用新的权限设置。架构

若是你链接完成后，将来的一段时间里，你没作任何操做，这个链接就处于空闲的状态，你能够经过show processlist命令中看到它，以下所示：框架

客户端若是太长时间没动静，链接器就会自动将它断开。这个时间是由参数wait_timeout控制的，默认值是8小时。函数

若是在链接被断开以后，客户端再次发送请求的话，就会收到一个错误提醒： Lost connection to MySQL server during query。这时候若是你要继续，就须要重连，而后再执行请求了。性能

数据库创建链接的过程一般是比较复杂的，使用中尽可能减小链接的动做，也就是尽可能使用长链接。由于长链接是指链接成功后，若是客户端持续有请求，则一直使用同一个链接。短链接则是指每次执行完不多的几回查询就断开链接，下次查询再从新创建一个，这样形成开销很大。

可是你会发现所有使用长链接后，有些时候MySql占用的内存会飙涨的很快。这是因为MySql在执行的过程当中临时使用的内存是管理在链接对象里面的。这些资源会在链接断开的时候才释放。因此若是长链接累积下来，可能致使内存占用太大，被系统强行杀掉（OOM），从现象看就是MySql异常重启了。

那么如何解决这种现象呢？主要有两种方案

1.按期断开长链接。使用一段时间，或者程序里面判断执行过一个占用内存的大查询后，断开链接，以后要查询再重连。

2.若是你使用的版本是mysql 5.7之后的版本，能够在执行一个较大的操做后，经过执行mysql_reset_connection来从新初始化链接资源。这个过程不须要重连和从新作权限验证，可是会将链接恢复到刚刚建立完时的状态。

三.查询缓存

链接创建完成后，就能够执行select语句去查询了，这时候执行逻辑就走到第二步：查询缓存。MYSQL拿到一个请求的时候，会先去缓存看有没有这个这条语句的执行结果，以前执行过的语句以及结果会以key-value 的形式缓存在内存中，固然，key就是sql语句了，value 就是以前的执行结果。若是语句不在查询缓存中，就会继续后面的执行阶段。执行完成后，执行结果会被存入查询缓存中。你能够看到，若是查询命中缓存，MySQL不须要执行后面的复杂操做，就能够直接返回结果，这个效率会很高。

可是大多数状况下，强烈不建议你去使用查询缓存，这时候大家确定会想，为何不用呀，这不是挺好的呀？

缘由一： cache 的访问由一个单一的全局锁来控制，这时候大量的查询将被阻塞，直至锁释放。因此不要简单认为设置 cache 一定会带来性能提高。

缘由二：这是由于只要有对一个表的更新，这个表上全部的查询缓存都会被清空。这时候就会形成查询缓存的失效很是频繁，你费了很大劲地把结果存起来，还没使用呢，就被一个更新全清空了。对于更新压力大的数据库来讲，查询缓存的命中率会很是低。除非你的业务就是有一张静态表，很长时间才会更新一次。好比，一个系统配置表，那这张表上的查询才适合使用查询缓存。

mysql仍是很人性化的，你以根据你的要去使用查询缓存，你能够将参数query_cache_type设置成DEMAND，这样对于默认的SQL语句都不使用查询缓存。而对于你肯定要使用查询缓存的语句，能够用SQL_CACHE显式指定，sql例子以下所示：

mysql> select SQL_CACHE * from T where ID=10；

最近我去官网看了mysql 8.0的改变，这个查询功能整块被删掉了，也就是8.0之后的版本都没有这个功能了。

四.分析器

若是没有命中查询缓存，就要开始真正执行语句了。首先，MySQL须要对SQL语句作解析，分析器先会词法分析，mysql须要识别出你这条sql语句字符串里面的字符串分别是什么，表明什么意思。

好比，mysql会根据你输入的select这个关键字识别出来，这是一个查询语句，把“T”识别成代表T，把ID识别成列ID。接着就是进行语法分析了，根据词法分析的结果，语法分析器会根据语法规则，判断你输入的这个SQL语句是否知足MySQL语法。若是你的语法错误，就会报出以下错误：

ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'elect * from t where ID=1' at line 1

通常语法错误会提示第一个出现错误的位置，因此关注的是紧接“use near”的内容。

五.优化器

通过了分析器后，在执行以前，还须要通过优化器的处理，为何还需优化器呢？由于优化器是在表里面有多个索引的时候，决定使用哪一个索引；或者在一个语句有多表关联（join）的时候，决定各个表的链接顺序。好比你执行下面这样的语句，这个语句是执行两个表的join：

mysql> select * from T1 join T2 using(ID)  where T1.A=1 and T2.B=2;

这条语句既能够先从表T1里面取出A=1的记录的ID值，再根据ID值关联到表T2，再判断T2里面d的值是否等于2。也能够先从表T2里面取出B=2的记录的ID值，再根据ID值关联到T1，再判断T1里面A的值是否等于1。虽然最终执行的结果是同样的，可是执行效率却有很大的不一样。再好比优化器是怎么选择索引的，例子以下：

SELECT C FROM T WHERE  A= 'value1' AND B = 'value2';

假设 A上的扫描了 100 个数据行，B 上扫描 50个数据行，而同时进行的测试只获得了 50个数据行。

先根据A会有100个数据行，接着进行匹配找到其中的 30 个与 B 中的值匹配记录，其中就有 70 次是失败了。

先根据 B会有 50 个数据行，接着进行匹配找到其中的 30 个与 A中的值匹配的记录，只有 20次是失败的，很显然须要的计算和磁盘 I/O 更少。

其结果是，优化器会先选择B索引，由于这样作开销更小。而优化器的做用就是决定选择使用哪个方案。

所以MySQL 的优化器主要干以下几个重要的事情：

一、选择最合适的索引；
二、选择表扫仍是走索引；
三、选择表关联顺序；
四、优化 where 子句；
五、排除管理中无用表；
六、决定 order by 和 group by 是否走索引；
七、尝试使用 inner join 替换 outer join；
八、简化子查询，决定结果缓存；
九、合并试图；

六.执行器

通过优化器知道了该怎么作，因而就进入了执行器阶段，开始执行语句。开始执行的时候，要先判断一下你对这个表T有没有执行查询的权限，若是没有，就会返回没有权限的错误，以下所示。

select * from T where ID=1; ERROR 1142 (42000): SELECT command denied to user 'b'@'localhost' for table 'T'

若是有权限，就继续往下执行，这时候执行器就会根据表的引擎定义，去使用这个引擎提供的接口。

这条语句在执行器的执行流程以下：

调用InnoDB引擎接口取这个表的第一行，判断ID值是否是1，若是不是则跳过，若是是则将这行存在结果集中；
调用引擎接口取“下一行”，重复相同的判断逻辑，直到取到这个表的最后一行。
执行器将上述遍历过程当中全部知足条件的行组成的记录集做为结果集返回给客户端。

至此，这个语句就执行完成了。对于有索引的表，执行的逻辑也差很少。第一次调用的是“取知足条件的第一行”这个接口，以后循环取“知足条件的下一行”这个接口，这些接口都是引擎中已经定义好的。你会在数据库的慢查询日志中看到一个rows_examined的字段，表示这个语句执行过程当中扫描了多少行。这个值就是在执行器每次调用引擎获取数据行的时候累加的。

在有些场景下，执行器调用一次，在引擎内部则扫描了多行，所以引擎扫描行数跟rows_examined并非彻底相同的。咱们后面会专门有一篇文章来说存储引擎的内部机制，里面会有详细的说明。

七.日志模块

到了架构图最后一部分了日志模块了，这里与上面的查询流程中不同的是，若是涉及更新流程还要涉及两个重要的日志模块，分别是重作日志（redo log）、归档日志（binlog）。

咱们首先来看redo log，redo log就像古代酒店里面的一块粉板，用来记录客人的赊帐记录，若是赊帐的人很少，那么他能够把顾客名和帐目写在板上。但若是赊帐的人多了，粉板总会有记不下的时候，这个时候掌柜必定还有一个专门记录赊帐的帐本。这个帐本至关于咱们的磁盘，若是生意很火爆的时候，若是咱们经过帐原本操做赊帐和还帐的话，确定须要经过密密麻麻的几十页来找到那个名字，再慢慢计算，写入帐本。这明显是不高效率的，特别是生意火爆的时候，效率特别慢。因此若是咱们如今粉板上先记录一下，等粉板写满了，或者打烊的时候再进行帐本数据与粉板的数据进行校对，这样明显更加能提高效率。

一样，在MySQL里也有这个问题，若是每一次的更新操做都须要写进磁盘，而后磁盘也要找到对应的那条记录，而后再更新，整个过程IO成本、查找成本都很高。为了解决这个问题，MySQL的设计者就用了相似酒店掌柜粉板的思路来提高更新效率。而粉板和帐本配合的整个过程，其实就是MySQL里常常说到的WAL技术，WAL的全称是Write-Ahead Logging，它的关键点就是先写日志，再写磁盘，也就是先写粉板，等不忙的时候再写帐本。

所以，当有一条记录须要更新的时候，InnoDB引擎就会先把记录写到redo log（粉板）里面，并更新内存，这个时候更新就算完成了。同时，InnoDB引擎会在适当的时候，将这个操做记录更新到磁盘里面，而这个更新每每是在系统比较空闲的时候作，这就像打烊之后掌柜作的事。若是今天赊帐的很少，掌柜能够等打烊后再整理。但若是某天赊帐的特别多，粉板写满了，又怎么办呢？这个时候掌柜只好放下手中的活儿，把粉板中的一部分赊帐记录更新到帐本中，而后把这些记录从粉板上擦掉，为记新帐腾出空间。

InnoDB的redo log是固定大小的，好比能够配置为一组4个文件，每一个文件的大小是1GB，那么这块“粉板”总共就能够记录4GB的操做。从头开始写，写到末尾就又回到开头循环写，以下面这个图所示。

write pos是当前记录的指针，一边写一边后移，写到第3号文件末尾后就回到0号文件开头。checkpoint是当前要擦除的位置，也是日后推移而且循环的，擦除记录前要把记录更新到数据文件。

write pos和checkpoint之间是用来记录新的操做，即“粉板”上还空着的部分。若是write pos追上checkpoint，表示“粉板”满了，这时候不能再执行新的更新，得停下来先擦掉一些记录，把checkpoint推动一下。有了redo log，InnoDB就能够保证即便数据库发生异常重启，以前提交的记录都不会丢失，这个能力称为crash-safe。要理解crash-safe这个概念，能够想一想咱们前面赊帐记录的例子。只要赊帐记录记在了粉板上或写在了帐本上，以后即便掌柜忘记了，好比忽然停业几天，恢复生意后依然能够经过帐本和粉板上的数据明确赊帐帐目。

接下来说解binlog，咱们能够从前面的架构图看到MySql总体分为两块，一块是Server层，它主要作的是MySQL功能层面的事情；还有一块是引擎层，负责存储相关的具体事宜。上面咱们聊到的粉板redo log是InnoDB引擎特有的日志，而Server层也有本身的日志，称为binlog（归档日志）。这时候咱们是否是又一个疑问，为何还须要binlong 这个日志呢？

这是由于最开始MySQL里并无InnoDB引擎。MySQL自带的引擎是MyISAM，可是MyISAM没有crash-safe的能力，binlog日志只能用于归档。而InnoDB是另外一个公司以插件形式引入MySQL的，既然只依靠binlog是没有crash-safe能力的，因此InnoDB使用另一套日志系统——也就是redo log来实现crash-safe能力。

这两种日志有如下三点不一样。

redo log存在于InnoDB；binlog是由Server层实现的，所以全部引擎均可以使用。
redo log是物理日志，记录的是“在某个数据页上作了什么修改”；binlog是逻辑日志，记录的是这个语句的原始逻辑，好比“给ID=2这一行的c字段加1 ”。
redo log是循环写的，空间固定会用完；binlog是能够追加写入的。“追加写”是指binlog文件写到必定大小后会切换到下一个，并不会覆盖之前的日志。

接下来，经过一条更新语句来说解InnoDB引擎和执行器内部执行更新的流程。例子以下：

update T set A=A+1 where ID=1;

流程图以下所示：

能够看到执行器和InnoDB引擎在执行这个简单的update语句时的内部流程，步骤以下

执行器先找引擎取ID=1这一行。ID是主键，引擎直接用树搜索找到这一行。若是ID=1这一行所在的数据页原本就在内存中，就直接返回给执行器；不然，须要先从磁盘读入内存，而后再返回。
执行器拿到引擎给的行数据，把这个值加上1，好比原来是N，如今就是N+1，获得新的一行数据，再调用引擎接口写入这行新数据。
引擎将这行新数据更新到内存中，同时将这个更新操做记录到redo log里面，此时redo log处于prepare状态。而后告知执行器执行完成了，随时能够提交事务。
执行器生成这个操做的binlog，并把binlog写入磁盘。
执行器调用引擎的提交事务接口，引擎把刚刚写入的redo log改为提交（commit）状态，更新完成。

接下来就是进行两阶段提交了，为何为何必须有“两阶段提交”呢？

这是为了让两份日志之间的逻辑一致。要说明这个问题，这个问题提及：怎样让数据库恢复到半个月内任意一秒的状态？

前面咱们说过了，binlog会记录全部的逻辑操做，而且是采用“追加写”的形式。若是你的DBA承诺说半个月内能够恢复，那么备份系统中必定会保存最近半个月的全部binlog，同时系统会按期作整库备份。这里的“按期”取决于系统的重要性，能够是一天一备，也能够是一周一备。

当须要恢复到指定的某一秒时，好比某天下午两点发现中午十二点有一次误删表，须要找回数据，那你能够这么作：

首先，找到最近的一次全量备份，若是你运气好，可能就是昨天晚上的一个备份，从这个备份恢复到临时库；
而后，从备份的时间点开始，将备份的binlog依次取出来，重放到中午误删表以前的那个时刻。

这样你的临时库就跟误删以前的线上库同样了，而后你能够把表数据从临时库取出来，按须要恢复到线上库去。

好了，说完了数据恢复过程，咱们回来讲说，为何日志须要“两阶段提交”。这里不妨用反证法来进行解释。

因为redo log和binlog是两个独立的逻辑，若是不用两阶段提交，要么就是先写完redo log再写binlog，或者采用反过来的顺序。咱们看看这两种方式会有什么问题。

仍然用前面的update语句来作例子。假设当前ID=A的行，字段A的值是0，再假设执行update语句过程当中在写完第一个日志后，第二个日志尚未写完期间发生了crash，会出现什么状况呢？

先写redo log后写binlog。假设在redo log写完，binlog尚未写完的时候，MySQL进程异常重启。因为咱们前面说过的，redo log写完以后，系统即便崩溃，仍然可以把数据恢复回来，因此恢复后这一行A的值是1。
可是因为binlog没写完就crash了，这时候binlog里面就没有记录这个语句。所以，以后备份日志的时候，存起来的binlog里面就没有这条语句。
而后你会发现，若是须要用这个binlog来恢复临时库的话，因为这个语句的binlog丢失，这个临时库就会少了这一次更新，恢复出来的这一行A的值就是0，与原库的值不一样。
先写binlog后写redo log。若是在binlog写完以后crash，因为redo log还没写，崩溃恢复之后这个事务无效，因此这一行A的值是0。可是binlog里面已经记录了“把A从0改为1”这个日志。因此，在以后用binlog来恢复的时候就多了一个事务出来，恢复出来的这一行A的值就是1，与原库的值不一样。

能够看到，若是不使用“两阶段提交”，那么数据库的状态就有可能和用它的日志恢复出来的库的状态不一致。

你可能会说，这个几率是否是很低，平时也没有什么动不动就须要恢复临时库的场景呀？

其实不是的，不仅是误操做后须要用这个过程来恢复数据。当你须要扩容的时候，也就是须要再多搭建一些备库来增长系统的读能力的时候，如今常见的作法也是用全量备份加上应用binlog来实现的，这个“不一致”就会致使你的线上出现主从数据库不一致的状况。

简单说，redo log和binlog均可以用于表示事务的提交状态，而两阶段提交就是让这两个状态保持逻辑上的一致。

总的来讲redo log用于保证crash-safe能力。innodb_flush_log_at_trx_commit这个参数设置成1的时候，表示每次事务的redo log都直接持久化到磁盘。这个参数我建议你设置成1，这样能够保证MySQL异常重启以后数据不丢失。

sync_binlog这个参数设置成1的时候，表示每次事务的binlog都持久化到磁盘。这个参数我也建议你设置成1，这样能够保证MySQL异常重启以后binlog不丢失。两阶段提交是跨系统维持数据逻辑一致性时经常使用的一个方案。

三. 实战巩固

1.执行了这个语句 select * from T where k=1, 必然会报“不存在这个列”的错误： “Unknown column ‘k’ in ‘where clause’”。让我闷想一下这是上面哪一个阶段报出来的呢？

答案：很明显是分析器阶段，由于词法分析的时候会解析出查询的表，列等等，因此此时就应该能知道表列的存在性。并且从我我的的拙见来看，若是先一步判断出这种没法查询的错误，避免后续执行，则能够避免无谓的性能开销。而表列的数据较少，彻底能够这里判断。

2.咱们知道按期全量备份的周期“取决于系统重要性，有的是一天一备，有的是一周一备”。那么在什么场景下，一天一备会比一周一备更有优点呢？或者说，它影响了这个数据库系统的哪一个指标？

在一天一备的模式里，最坏状况下须要应用一天的binlog，好处是“最长恢复时间”更短。好比，你天天0点作一次全量备份，而要恢复出一个到昨天晚上23点的备份。

一周一备最坏状况就要应用一周的binlog了。系统的对应指标就是恢复目标时间（RTO）。固然这个是有成本的，由于更频繁全量备份须要消耗更多存储空间，因此这个RTO是成本换来的，就须要你根据业务重要性来评估了。