做者:王小龙@网易乐得DBAmysql
原文地址:sql
http://mp.weixin.qq.com/s/698g5lm9CWqbU0B_p0nLMw数据库
MySQL执行SQL会通过SQL解析和查询优化的过程,解析器将SQL分解成数据结构并传递到后续步骤,查询优化器发现执行SQL查询的最佳方案、生成执行计划。查询优化器决定SQL如何执行,依赖于数据库的统计信息,下面咱们介绍MySQL 5.7中innodb统计信息的相关内容。数据结构
MySQL统计信息的存储分为两种,非持久化和持久化统计信息。测试
1、非持久化统计信息优化
非持久化统计信息存储在内存里,若是数据库重启,统计信息将丢失。有两种方式能够设置为非持久化统计信息:ui
1 全局变量,spa INNODB_STATS_PERSISTENT=OFFcode |
2 CREATE/ALTER表的参数,索引 STATS_PERSISTENT=0 |
非持久化统计信息在如下状况会被自动更新:
1 执行ANALYZE TABLE |
2 innodb_stats_on_metadata=ON状况下,执SHOW TABLE STATUS, SHOW INDEX, 查询 INFORMATION_SCHEMA下的TABLES, STATISTICS |
3 启用--auto-rehash功能状况下,使用mysql client登陆 |
4 表第一次被打开 |
5 距上一次更新统计信息,表1/16的数据被修改 |
非持久化统计信息的缺点显而易见,数据库重启后若是大量表开始更新统计信息,会对实例形成很大影响,因此目前都会使用持久化统计信息。
5.6.6开始,MySQL默认使用了持久化统计信息,即INNODB_STATS_PERSISTENT=ON,持久化统计信息保存在表mysql.innodb_table_stats和mysql.innodb_index_stats。
持久化统计信息在如下状况会被自动更新:
1 INNODB_STATS_AUTO_RECALC=ON 状况下,表中10%的数据被修改 |
2 增长新的索引 |
innodb_table_stats是表的统计信息,innodb_index_stats是索引的统计信息,各字段含义以下:
innodb_table_stats |
|
database_name |
数据库名 |
table_name |
表名 |
last_update |
统计信息最后一次更新时间 |
n_rows |
表的行数 |
clustered_index_size |
汇集索引的页的数量 |
sum_of_other_index_sizes |
其余索引的页的数量 |
innodb_index_stats |
|
database_name |
数据库名 |
table_name |
表名 |
index_name |
索引名 |
last_update |
统计信息最后一次更新时间 |
stat_name |
统计信息名 |
stat_value |
统计信息的值 |
sample_size |
采样大小 |
stat_description |
类型说明 |
为更好的理解innodb_index_stats,建一张测试表作说明:
写入数据以下:
查看t1表的统计信息,需主要关注stat_name和stat_value字段
stat_name=size时:stat_value表示索引的页的数量
stat_name=n_leaf_pages时:stat_value表示叶子节点的数量
stat_name=n_diff_pfxNN时:stat_value表示索引字段上惟一值的数量,此处作一下具体说明:
一、n_diff_pfx01表示索引第一列distinct以后的数量,如PRIMARY的a列,只有一个值1,因此index_name='PRIMARY'and stat_name='n_diff_pfx01'时,stat_value=1。
二、n_diff_pfx02表示索引前两列distinct以后的数量,如i2uniq的e,f列,有4个值,因此index_name='i2uniq' and stat_name='n_diff_pfx02'时,stat_value=4。
三、对于非惟一索引,会在原有列以后加上主键索引,如index_name=’i1’ and stat_name=’n_diff_pfx03’,在原索引列c,d后加了主键列a,(c,d,a)的distinct结果为2。
了解了stat_name和stat_value的具体含义,就能够协助咱们排查SQL执行时为何没有使用合适的索引,例如某个索引n_diff_pfxNN的stat_value远小于实际值,查询优化器认为该索引选择度较差,就有可能致使使用错误的索引。
咱们查看执行计划,发现未使用正确的索引,若是是innodb_index_stats中统计信息差异较大引发,可经过如下方式处理:
一、手动更新统计信息,注意执行过程当中会加读锁:
ANALYZETABLE TABLE_NAME;
二、若是更新后统计信息仍不许确,可考虑增长表采样的数据页,两种方式能够修改:
a) 全局变量INNODB_STATS_PERSISTENT_SAMPLE_PAGES,默认为20;
b) 单个表能够指定该表的采样:
ALTER TABLE TABLE_NAME STATS_SAMPLE_PAGES=40;
经测试,此处STATS_SAMPLE_PAGES的最大值是65535,超出会报错。
目前MySQL并无提供直方图的功能,某些状况下(如数据分布不均)仅仅更新统计信息不必定能获得准确的执行计划,只能经过index hint的方式指定索引。新版本8.0会增长直方图功能,让咱们期待MySQL愈来愈强大的功能吧