MySQL 5.6.30数据库
因为爬虫抓取的数据不断增多,这两天在不断对数据库以及查询语句进行优化,其中一个表结构以下:服务器
CREATE TABLE `newspaper_article` ( `id` varchar(50) NOT NULL COMMENT '编号', `title` varchar(190) NOT NULL COMMENT '标题', `author` varchar(255) DEFAULT NULL COMMENT '做者', `date` date NULL DEFAULT NULL COMMENT '发表时间', `content` longtext COMMENT '正文', `status` tinyint(4) DEFAULT '0', PRIMARY KEY (`id`), KEY `idx_status_date` (`status`,`date`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='文章表';
根据业务须要,添加了 idx_status_date
索引,在执行下面这个 SQL 时特别耗时:数据结构
SELECT id, title, status, date FROM article WHERE status > -2 AND date = '2016-01-07';
根据观察,天天新增的数据大概在2500条之内,本觉得这里指定了具体某天的日期 '2016-01-07'
,实际须要扫描的数据量应该在2500条之内才对,但实际并不是如此:
实际共扫描了185589条数据,远远高于预估的2500条,且实际执行时间都将近3秒钟:性能
这是为何呢?优化
将 idx_status_date (status, date)
改成 idx_status (status)
后,查看 MySQL 执行计划:spa
能够看到将多列索引改成单列索引后,执行计划要扫描的数据总量没有任何变化。结合多列索引遵循最左前缀原则,推测上面的查询语句只使用了 idx_status_date
最左边的 status
的索引。code
翻了下《高性能MySQL》找到了下面这段话,证明了个人想法:blog
若是查询中有某个列的范围查询,则其右边全部列都没法使用索引优化查找。例若有查询
WHERE last_name = 'Smith' AND first_name LIKE 'J%' AND dob = '1976-12-23'
,这个查询只能使用索引的前两列,由于这里LIKE
是一个范围条件(可是服务器能够把其他列用于其余目的)。若是范围查询列值的数量有限,那么能够经过使用多个等于条件来代替范围条件。索引
所以,这里解决思路有两种:get
idx_status_date (status, date)
为索引 idx_date_status (date, status)
,并新建一个 idx_status
索引,便可达到一样的效果。优化后的执行计划:
实际执行结果:
当人们谈论索引的时候,若是没有特别指明类型,那么多半说的是 B-Tree
索引,它使用 B-Tree
数据结构来存储数据。咱们使用术语“B-Tree”,是由于 MySQL 在 CREATE TABLE
和其余语句中也使用该关键字。不过,底层的存储引擎也可能使用不一样的存储结构。InnoDB使用的是B+Tree。
假若有以下数据表:
CREATE TABLE People ( last_name varchar(50) not null, first_name varchar(50) not null, dob date not null, gender enum('m', 'f') not null, key(last_name, first_name, dob) );
WHERE last_name = 'Smith' AND first_name LIKE 'J%' AND dob = '1976-12-23'
,这个查询只能使用索引的前两列,由于这里 LIKE
是一个范围条件(可是服务器能够把其他列用于其余目的)。若是范围查询列值的数量有限,那么能够经过使用多个等于条件来代替范围条件。