MySQL优化 - 性能分析与查询优化

时间 2019-11-10

标签 mysql 优化性能分析查询栏目 MySQL 繁體版

原文原文链接

优化应贯穿整个产品开发周期中，好比编写复杂SQL时查看执行计划，安装MySQL服务器时尽可能合理配置(见过太多彻底使用默认配置安装的状况)，根据应用负载选择合理的硬件配置等。html

一、性能分析

性能分析包含多方面：CPU、Memory、磁盘/网络IO、MySQL服务器自己等。mysql

1.1 操做系统分析ios

常规的操做系统分析，在Linux中一般包含一些性能监控命令，如top、vmstat、iostat、strace、iptraf等。sql

一、内存：内存是大项，高查询消耗大量的查询缓存，内存必须足够，而且给系统自己要预留一些。缓存

二、磁盘：配备高速磁盘+RAID会有更好的读写速度，而且SSD成本逐渐下降，升级成本会在可接受范围。性能优化

三、网络：目前市场上千兆万兆网卡已很常见。服务器

四、CPU：虽然不少状况下CPU用不完，但也不能让它成为瓶颈。网络

生产环境的MySQL多数状况部署在Linux系统中，Linux系统自己能够优化的配置并很少。硬件的选型是复杂，涉及计算机组成的原理性知识，须要额外了解。函数

1.2 MySQL服务性能分析工具

MySQL服务器的性能一般经过监控命令查看系统工做状态，肯定哪些因素成为瓶颈。

1.2.1 SHOW GLOBAL STATUS

显示了目前MySQL的工做状态，包含不少参数，下面对一些参数进行说明，其他的参考官方说明：

====================================

1. Aborted_clients
若是该值随时间增长，检查是否优雅关闭链接，检查max_allowed_packet配置变量是否被超过致使强制中断。

2. Aborted_connections
接近于0，检查网络问题，若是有少许是正常的，好比鉴权失败等。

3. Binlog_cache_disk_use和Binlog_cache_use
大部分事务应该在缓冲中进行，若是disk cache很大，可考虑增长内存缓存。

4. Bytes_recevied和Bytes_sent
若是值很大，检查是否查询超过须要的数据。

5. Com_*
尽可能让如Com_rollback这些不常见的变量超过预期，用innotop检查。

6. Create_tmp_tables
优化查询下降该值。

7. Handler_read_rnd_next
Handler_read_rnd_next / Handler_read_rnd显示全表扫面大体平均值，若是很大，只能优化查询。

8. Open_files
不该该接近于open_files_limit，若是接近就应该适当增长open_files_limit。

9. Qcache_*
查询缓存相关。

10. Select_full_join
全联接无索引联接，尽可能避免，优化查询。

11. Select_full_range_join
值太高说明使用了范围查询联接表，范围查询比较慢，可优化。

12. Sort_meger_passes
若是值较大可考虑增长sort_buffer_size，查明是那个查询致使使用文件排序。

13. Table_locks_waited
表被锁定致使服务器锁等待，InnoDB的行锁不会使得该变量增长，建议开启慢查询日志。

14. Threads_created
若是值在增长，可考虑增长thread_cache_size。

====================================

1.2.2 SHOW ENGINE INNODB STATUS

暂时的数据包含了太多InnoDB核心信息，而且须要比较深的了解InnoDB引擎工做原理，这里不作过多说明，请查阅针对此的专项文档。

注: 一般包含SEMAPHORES、TRANSACTIONS、FILE I/O、LOG、BUFFER POOL AND MEMORY等一些详细值，有些参数是上一次执行以来的平均值，因此建议隔一段时间再打印一次获得这段时间的统计，有点相似iostat的统计磁盘平均读写同样。

1.2.3 开启慢查询日志配置

排查致使MySQL运行缓慢的问题SQL，开启慢查询日志配置，可能有颇有帮助：

slow_query_log=1
slow_query_log_file=/YOUR_DIR/mysql_slow.log

配合慢查询日志分析工具(如mysqlsla)

二、查询性能优化

通常来讲在编写SQL时，注意查询是否能使用到索引，是否在大表中或者高频率查询中引发全表扫描，这些主要经过经验分析配合execution plan获得比较理想的查询消耗。

2.1 查询基础

了解查询过程，才能知道哪些步骤可能出现瓶颈，execution plan结果也会有所体现，MySQL查询的通常过程：

1. Client往服务器发送查询指令。
2. 服务器查询缓存，若是存在则直接返回，不然下一步。
3. 服务器解析、预处理和优化查询，生成执行计划。
4. 执行引擎调用存储引擎API执行查询。
5. 服务器将结果返回至客户端。

用图表示以下：

解析与预处理过程:

- 解析器将查询分解后构造解析树，进行语法解析与验证查询，检查SQL是否有效。

- 预处理器解析语义：如检查表和列是否存在，是否存在歧义等。

- 预处理器检查权限。

查询优化器:

该过程比较复杂，将解析树的结果变成执行计划，优化器的任务是寻找最好的方式(但并非总能选择最好的方案)，MySQL使用基于开销的优化器，预测不一样执行计划的开销。

- MySQL不考虑不受它控制的开销，如用户存储过程与用户自定义的函数

- 不考虑正在运行的其余查询

2.2 优化数据访问 (这一点很重要)

1. 应用程序是否获取超过须要的数据量？(PS: 屡次遇到过查询表全部数据而后再程序中只读取10行之类的代码)

2. MySQL 服务器是否分析了超过须要的行？数据是否没有在存储引擎层被过来掉？(Using index , Using where)

典型的错误以下：

1. 提取超过须要的行，而后在程序中只要一部分 (应该使用limit限制数据量）。

2. 多表join提取全部的列 (应该只读取须要的列)。

3. 提取全部的列（提取不须要的列可能致使优化索引失效，增长磁盘IO，浪费内存等, 但若是是知道这个影响并利用查询缓存，简化设计等也是能够考虑的）。

访问类型：

Full Table Scan > Index Scan > Range Scan > Unique Index Lookup > Constant.

访问速度以此递增。

对于使用where语句来过滤数据的话，最好到最坏的状况是：

1. 对索引查找用where来消除不匹配的数据行，在存储引擎层。

2. 使用覆盖索引 (Extra 为Using Index) 来避免访问行，取得索引数据后过滤行，发生在MySQL服务器层，但不须要读取行数据。

3. 从表中查询数据，而后过滤 (Using Where), 发生在服务器端而且要读取行数据。

后面会针对执行计划结果作详细介绍。

2.3 关于执行计划

执行计划结果样例以下图(也可用其余的可视化工具，如mysql workbench)：

所表明的含义可在官方文档中找到详细说明 ( https://dev.mysql.com/doc/refman/5.5/en/explain-output.html )，

这里说明一些比较重要的结果:

TYPE字段的值：

前面所说的访问速度依次递增就和这个有关:

Full Table Scan > Index Scan > Range Scan > Unique Index Lookup > Constant.

这里列出一些常见的说明：

一、const: 最多匹配一行, 如 SELECT * FROM rental where rental_id=1。

二、eq_ref: 读取的行依次匹配前一个表。

三、ref: 链接仅使用左索引或者索引不是PRIMARY或UNIQUE(或者说获得的不是一行的结果)，若是获得的几行数据，这是个比较好的类型。

四、range: 使用索引的范围扫描，如使用了 =, <>, >, >=, <, <=, IS NULL, <=>, BETWEEN, IN()等条件。

五、index: 除了索引树被扫描以外，索引链接类型与ALL相同。这有两种方式：

**************

1. 若是索引是查询的覆盖索引，并知足表中所需的全部数据，则仅扫描索引树。在这种状况下，Extra列为Using index。仅索引扫描一般比ALL更快，由于索引的大小一般小于表数据。

2. 使用索引来执行全表扫描，以按索引顺序查找数据行。在Extra列张则没有Using index，这种状况与ALL的区别是ALL是按行扫描。

**************

六、ALL: 全表扫描，比较糟糕 (但有时候数据比较少的状况下，MySQL会直接进行全表扫描读取数据，效率更高)。

2.4 优化特定的查询

查询优化的一个办法是迁移旧数据，腾出内存空间从新平衡索引结构，使得更快的查询速度，不少应用保留半年或三个月的数据都能知足需求，对于旧数据，额外提供平台访问或者在应用层作路由。

2.4.1 优化COUNT (遇到过只知其一;不知其二的使用，致使想优化却拔苗助长)

COUNT有两种不一样的工做方式：统计值的数量和统计行的数量。

值是一个非空(Non-NULL)的表达式(NULL则表示没有值)，若是在COUNT()中定义了列名或其余表达式，COUNT则会统计这个表达式有值(Non-NULL)的次数。

COUNT另一种工做方式就是统计行数，当MySQL知道括号中的表达式不会为NULL的时候，则使用这种方式，COUNT(*)是个例子，它不会展开成全部列，则是忽略因此的列并统计。

2.4.2 优化limit和offset

偏移量很大的查询代价很高，如LIMIT 10000, 10, 则会产生10010数据，而后只截取10行。解决办法：

1. 限制分页能读取的数据页数。

2. 可考虑使用覆盖索引，如 select id, name, description from book limit 100,10;

在ID上有索引改进为：select id, name, description from book inner join (select id from book limit 100, 10) as b;