MySQL统计信息简介

时间 2019-11-05

标签 mysql 统计信息简介栏目 MySQL 繁體版

原文原文链接

做者：王小龙@网易乐得DBAmysql

原文地址：sql

http://mp.weixin.qq.com/s/698g5lm9CWqbU0B_p0nLMw数据库

MySQL执行SQL会通过SQL解析和查询优化的过程，解析器将SQL分解成数据结构并传递到后续步骤，查询优化器发现执行SQL查询的最佳方案、生成执行计划。查询优化器决定SQL如何执行，依赖于数据库的统计信息，下面咱们介绍MySQL 5.7中innodb统计信息的相关内容。数据结构

MySQL统计信息的存储分为两种，非持久化和持久化统计信息。测试

1、非持久化统计信息优化

非持久化统计信息存储在内存里，若是数据库重启，统计信息将丢失。有两种方式能够设置为非持久化统计信息：ui

1 全局变量，spa

INNODB_STATS_PERSISTENT=OFFcode

2 CREATE/ALTER表的参数，索引

STATS_PERSISTENT=0

非持久化统计信息在如下状况会被自动更新：

1 执行ANALYZE TABLE

2 innodb_stats_on_metadata=ON状况下，执SHOW TABLE STATUS, SHOW INDEX, 查询 INFORMATION_SCHEMA下的TABLES, STATISTICS

3 启用--auto-rehash功能状况下，使用mysql client登陆

4 表第一次被打开

5 距上一次更新统计信息，表1/16的数据被修改

非持久化统计信息的缺点显而易见，数据库重启后若是大量表开始更新统计信息，会对实例形成很大影响，因此目前都会使用持久化统计信息。

2、持久化统计信息

5.6.6开始，MySQL默认使用了持久化统计信息，即INNODB_STATS_PERSISTENT=ON，持久化统计信息保存在表mysql.innodb_table_stats和mysql.innodb_index_stats。

持久化统计信息在如下状况会被自动更新：

1 INNODB_STATS_AUTO_RECALC=ON

状况下，表中10%的数据被修改

2 增长新的索引

innodb_table_stats是表的统计信息，innodb_index_stats是索引的统计信息，各字段含义以下：

innodb_table_stats
database_name	数据库名
table_name	表名
last_update	统计信息最后一次更新时间
n_rows	表的行数
clustered_index_size	汇集索引的页的数量
sum_of_other_index_sizes	其余索引的页的数量

innodb_index_stats
database_name	数据库名
table_name	表名
index_name	索引名
last_update	统计信息最后一次更新时间
stat_name	统计信息名
stat_value	统计信息的值
sample_size	采样大小
stat_description	类型说明

为更好的理解innodb_index_stats，建一张测试表作说明：

CREATE TABLE t1 (
a INT, b INT, c INT, d INT, e INT, f INT,
PRIMARY KEY (a, b), KEY i1 (c, d), UNIQUE KEY i2uniq (e, f)
) ENGINE=INNODB;

写入数据以下：

查看t1表的统计信息，需主要关注stat_name和stat_value字段

stat_name=size时：stat_value表示索引的页的数量

stat_name=n_leaf_pages时：stat_value表示叶子节点的数量

stat_name=n_diff_pfxNN时：stat_value表示索引字段上惟一值的数量，此处作一下具体说明：

一、n_diff_pfx01表示索引第一列distinct以后的数量，如PRIMARY的a列，只有一个值1，因此index_name='PRIMARY'and stat_name='n_diff_pfx01'时，stat_value=1。

二、n_diff_pfx02表示索引前两列distinct以后的数量，如i2uniq的e,f列，有4个值，因此index_name='i2uniq' and stat_name='n_diff_pfx02'时，stat_value=4。

三、对于非惟一索引，会在原有列以后加上主键索引，如index_name=’i1’ and stat_name=’n_diff_pfx03’，在原索引列c,d后加了主键列a，(c,d,a)的distinct结果为2。

了解了stat_name和stat_value的具体含义，就能够协助咱们排查SQL执行时为何没有使用合适的索引，例如某个索引n_diff_pfxNN的stat_value远小于实际值，查询优化器认为该索引选择度较差，就有可能致使使用错误的索引。

3、统计信息不许确的处理

咱们查看执行计划，发现未使用正确的索引，若是是innodb_index_stats中统计信息差异较大引发，可经过如下方式处理：

一、手动更新统计信息，注意执行过程当中会加读锁：

ANALYZETABLE TABLE_NAME;

二、若是更新后统计信息仍不许确，可考虑增长表采样的数据页，两种方式能够修改：

a) 全局变量INNODB_STATS_PERSISTENT_SAMPLE_PAGES，默认为20；

b) 单个表能够指定该表的采样：

ALTER TABLE TABLE_NAME STATS_SAMPLE_PAGES=40;

经测试，此处STATS_SAMPLE_PAGES的最大值是65535，超出会报错。

目前MySQL并无提供直方图的功能，某些状况下（如数据分布不均）仅仅更新统计信息不必定能获得准确的执行计划，只能经过index hint的方式指定索引。新版本8.0会增长直方图功能，让咱们期待MySQL愈来愈强大的功能吧