MySQL 多列索引优化小记

时间 2019-11-29

标签 mysql 多列索引优化栏目 MySQL 繁體版

原文原文链接

MySQL 5.6.30数据库

问题背景

因为爬虫抓取的数据不断增多，这两天在不断对数据库以及查询语句进行优化，其中一个表结构以下：服务器

CREATE TABLE `newspaper_article` (
  `id` varchar(50) NOT NULL COMMENT '编号',
  `title` varchar(190) NOT NULL COMMENT '标题',
  `author` varchar(255) DEFAULT NULL COMMENT '做者',
  `date` date NULL DEFAULT NULL COMMENT '发表时间',
  `content` longtext COMMENT '正文',
  `status` tinyint(4) DEFAULT '0',
  PRIMARY KEY (`id`),
  KEY `idx_status_date` (`status`,`date`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='文章表';

根据业务须要，添加了 idx_status_date 索引，在执行下面这个 SQL 时特别耗时：数据结构

SELECT id, title, status, date FROM article WHERE status > -2 AND date = '2016-01-07';

根据观察，天天新增的数据大概在2500条之内，本觉得这里指定了具体某天的日期 '2016-01-07' ，实际须要扫描的数据量应该在2500条之内才对，但实际并不是如此：

实际共扫描了185589条数据，远远高于预估的2500条，且实际执行时间都将近3秒钟：性能

这是为何呢？优化

解决方案

将 idx_status_date (status, date) 改成 idx_status (status) 后，查看 MySQL 执行计划：spa

能够看到将多列索引改成单列索引后，执行计划要扫描的数据总量没有任何变化。结合多列索引遵循最左前缀原则，推测上面的查询语句只使用了 idx_status_date 最左边的 status 的索引。code

翻了下《高性能MySQL》找到了下面这段话，证明了个人想法：blog

若是查询中有某个列的范围查询，则其右边全部列都没法使用索引优化查找。例若有查询 WHERE last_name = 'Smith' AND first_name LIKE 'J%' AND dob = '1976-12-23' ，这个查询只能使用索引的前两列，由于这里 LIKE 是一个范围条件（可是服务器能够把其他列用于其余目的）。若是范围查询列值的数量有限，那么能够经过使用多个等于条件来代替范围条件。索引

所以，这里解决思路有两种：get

能够经过使用多个等于条件来代替范围条件
修改 idx_status_date (status, date) 为索引 idx_date_status (date, status) ，并新建一个 idx_status 索引，便可达到一样的效果。

优化后的执行计划：

实际执行结果：

总结

当人们谈论索引的时候，若是没有特别指明类型，那么多半说的是 B-Tree 索引，它使用 B-Tree 数据结构来存储数据。咱们使用术语“B-Tree”，是由于 MySQL 在 CREATE TABLE 和其余语句中也使用该关键字。不过，底层的存储引擎也可能使用不一样的存储结构。InnoDB使用的是B+Tree。
假若有以下数据表：

CREATE TABLE People (
  last_name  varchar(50)    not null,
  first_name varchar(50)    not null,
  dob        date           not null,
  gender     enum('m', 'f') not null,
  key(last_name, first_name, dob)
);

B-Tree 索引对以下类型的查询有效

全值匹配
全值匹配指的是和索引中的全部列进行匹配，例如上表的索引可用于查找姓名为 Cuba Allen 、出生于 1960-01-01 的人。
匹配最左前缀
上表中的索引可用于查找全部姓为 Allen 的人，即只使用索引的第一列。
匹配列前缀
只匹配某一列的值的开头部分。例如上表的索引可用于查找全部以 J 开头的姓的人。这里也只使用了索引的第一列。
匹配范围值
例如上表中的索引可用于查找姓在 Allen 和 Barrymore 之间的人。这里也只使用了索引的第一列。
精确匹配某一列并范围匹配另一列
上表的索引也可用于查找全部姓为 Allen ，而且名字是字母 K 开头（好比 Kim 、 Karl 等）的人。即第一列 last_name 全匹配，第二列 first_name 范围匹配。
只访问索引的查询
B-Tree 一般能够支持“只访问索引的查询”，即查询只须要访问索引，而无须访问数据行。

B-Tree 索引的一些限制

若是不是按照索引的最左列开始查找，则没法使用索引。例如上表的索引没法用于查找名字为 Bill 的人，也没法查找某个特定生日的人，由于这两列都不是最左数据列。相似地，也没法查找姓氏以某个字母结尾的人。
不能跳过索引中列。也就是说，上表的索引没法用于查找姓氏为 Smith 而且在某个特定日期出生的人。若是不指定名（first_name），则 MySQL 只能使用索引的第一列。
若是查询中有某个列的范围查询，则其右边全部列都没法使用索引优化查找。例若有查询 WHERE last_name = 'Smith' AND first_name LIKE 'J%' AND dob = '1976-12-23' ，这个查询只能使用索引的前两列，由于这里 LIKE 是一个范围条件（可是服务器能够把其他列用于其余目的）。若是范围查询列值的数量有限，那么能够经过使用多个等于条件来代替范围条件。

原文连接：http://xueliang.org/article/detail/20170326235631083