索引原理与慢查询优化

1、前言mysql

为什么要有索引?ios

通常的应用系统,读写比例在10:1左右,并且插入操做和通常的更新操做不多出现性能问题,在生产环境中,咱们遇到最多的,也是最容易出问题的,仍是一些复杂的查询操做,所以对查询语句的优化显然是重中之重。提及加速查询,就不得不提到索引了。算法

什么是索引?sql

索引在MySQL中也叫作“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能
很是关键,尤为是当表中的数据量愈来愈大时,索引对于性能的影响愈发重要。
索引优化应该是对查询性能优化最有效的手段了。索引可以轻易将查询性能提升好几个数量级。
索引至关于字典的音序表,若是要查某个字,若是不使用音序表,则须要从几百页中逐页去查。数据库

索引是应用程序设计和开发的一个重要方面。若索引太多,应用程序的性能可能会受到影响。而索引太少,对查询性能又会产生影响,要找到一个平衡点,这对应用程序的性能相当重要。一些开发人员老是在过后才想起添加索引----我一直认为,这源于一种错误的开发模式。若是知道数据的使用,从一开始就应该在须要处添加索引。开发人员每每对数据库的使用停留在应用的层面,好比编写SQL语句、存储过程之类,他们甚至可能不知道索引的存在,或认为过后让相关DBA加上便可。DBA每每不够了解业务的数据流,而添加索引须要经过监控大量的SQL语句进而从中找到问题,这个步骤所需的时间确定是远大于初始添加索引所需的时间,而且可能会遗漏一部分的索引。固然索引也并非越多越好,我曾经遇到过这样一个问题:某台MySQL服务器iostat显示磁盘使用率一直处于100%,通过分析后发现是因为开发人员添加了太多的索引,在删除一些没必要要的索引以后,磁盘使用率立刻降低为20%。可见索引的添加也是很是有技术含量的。
你是否对索引存在误解?

2、索引的原理
缓存

索引原理性能优化

索引的目的在于提升查询效率,与咱们查阅图书所用的目录是一个道理:先定位到章,而后定位到该章下的一个小节,而后找到页数。类似的例子还有:查字典,查火车车次,飞机航班等服务器

本质都是:经过不断地缩小想要获取数据的范围来筛选出最终想要的结果,同时把随机的事件变成顺序的事件,也就是说,有了这种索引机制,咱们能够老是用同一种查找方式来锁定数据。数据结构

数据库也是同样,但显然要复杂的多,由于不只面临着等值查询,还有范围查询(>、<、between、in)、模糊查询(like)、并集查询(or)等等。数据库应该选择怎么样的方式来应对全部的问题呢?咱们回想字典的例子,能不能把数据分红段,而后分段查询呢?最简单的若是1000条数据,1到100分红第一段,101到200分红第二段,201到300分红第三段......这样查第250条数据,只要找第三段就能够了,一会儿去除了90%的无效数据。但若是是1千万的记录呢,分红几段比较好?稍有算法基础的会想到搜索树,其平均复杂度是lgN,具备不错的查询性能。但这里咱们忽略了一个关键的问题,复杂度模型是基于每次相同的操做成原本考虑的。而数据库实现比较复杂,一方面数据是保存在磁盘上的,另一方面为了提升性能,每次又能够把部分数据读入内存来计算,由于咱们知道访问磁盘的成本大概是访问内存的十万倍左右,因此简单的搜索树难以知足复杂的应用场景。ide

磁盘IO与预读

前面提到了访问磁盘,那么这里先简单介绍一下磁盘IO和预读,磁盘读取数据靠的是机械运动,每次读取数据花费的时间能够分为寻道时间、旋转延迟、传输时间三个部分,寻道时间指的是磁臂移动到指定磁道所须要的时间,主流磁盘通常在5ms如下;旋转延迟就是咱们常常据说的磁盘转速,好比一个磁盘7200转,表示每分钟能转7200次,也就是说1秒钟能转120次,旋转延迟就是1/120/2 = 4.17ms;传输时间指的是从磁盘读出或将数据写入磁盘的时间,通常在零点几毫秒,相对于前两个时间能够忽略不计。那么访问一次磁盘的时间,即一次磁盘IO的时间约等于5+4.17 = 9ms左右,听起来还挺不错的,但要知道一台500 -MIPS(Million Instructions Per Second)的机器每秒能够执行5亿条指令,由于指令依靠的是电的性质,换句话说执行一次IO的时间能够执行约450万条指令,数据库动辄十万百万乃至千万级数据,每次9毫秒的时间,显然是个灾难。下图是计算机硬件延迟的对比图,供你们参考:

考虑到磁盘IO是很是高昂的操做,计算机操做系统作了一些优化,当一次IO时,不光把当前磁盘地址的数据,而是把相邻的数据也都读取到内存缓冲区内,由于局部预读性原理告诉咱们,当计算机访问一个地址的数据的时候,与其相邻的数据也会很快被访问到。每一次IO读取的数据咱们称之为一页(page)。具体一页有多大数据跟操做系统有关,通常为4k或8k,也就是咱们读取一页内的数据时候,实际上才发生了一次IO,这个理论对于索引的数据结构设计很是有帮助。

3、索引的数据结构

前面讲了索引的基本原理,数据库的复杂性,又讲了操做系统的相关知识,目的就是让你们了解,任何一种数据结构都不是凭空产生的,必定会有它的背景和使用场景,咱们如今总结一下,咱们须要这种数据结构可以作些什么,其实很简单,那就是:每次查找数据时把磁盘IO次数控制在一个很小的数量级,最好是常数数量级。那么咱们就想到若是一个高度可控的多路搜索树是否能知足需求呢?就这样,b+树应运而生(B+树是经过二叉查找树,再由平衡二叉树,B树演化而来)。

如上图,是一颗b+树,关于b+树的定义能够参见B+树,这里只说一些重点,浅蓝色的块咱们称之为一个磁盘块,能够看到每一个磁盘块包含几个数据项(深蓝色所示)和指针(黄色所示),如磁盘块1包含数据项17和35,包含指针P一、P二、P3,P1表示小于17的磁盘块,P2表示在17和35之间的磁盘块,P3表示大于35的磁盘块。真实的数据存在于叶子节点即三、五、九、十、1三、1五、2八、2九、3六、60、7五、7九、90、99。非叶子节点只不存储真实的数据,只存储指引搜索方向的数据项,如1七、35并不真实存在于数据表中。

###b+树的查找过程
如图所示,若是要查找数据项29,那么首先会把磁盘块1由磁盘加载到内存,此时发生一次IO,在内存中用二分查找肯定29在17和35之间,锁定磁盘块1的P2指针,内存时间由于很是短(相比磁盘的IO)能够忽略不计,经过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘加载到内存,发生第二次IO,29在26和30之间,锁定磁盘块3的P2指针,经过指针加载磁盘块8到内存,发生第三次IO,同时内存中作二分查找找到29,结束查询,总计三次IO。真实的状况是,3层的b+树能够表示上百万的数据,若是上百万的数据查找只须要三次IO,性能提升将是巨大的,若是没有索引,每一个数据项都要发生一次IO,那么总共须要百万次的IO,显然成本很是很是高。

###b+树性质
1.索引字段要尽可能的小经过上面的分析,咱们知道IO次数取决于b+数的高度h,假设当前数据表的数据为N,每一个磁盘块的数据项的数量是m,则有h=㏒(m+1)N,当数据量N必定的状况下,m越大,h越小;而m = 磁盘块的大小 / 数据项的大小,磁盘块的大小也就是一个数据页的大小,是固定的,若是数据项占的空间越小,数据项的数量越多,树的高度越低。这就是为何每一个数据项,即索引字段要尽可能的小,好比int占4字节,要比bigint8字节少一半。这也是为何b+树要求把真实的数据放到叶子节点而不是内层节点,一旦放到内层节点,磁盘块的数据项会大幅度降低,致使树增高。当数据项等于1时将会退化成线性表。
2.索引的最左匹配特性当b+树的数据项是复合的数据结构,好比(name,age,sex)的时候,b+数是按照从左到右的顺序来创建搜索树的,好比当(张三,20,F)这样的数据来检索的时候,b+树会优先比较name来肯定下一步的所搜方向,若是name相同再依次比较age和sex,最后获得检索的数据;但当(20,F)这样的没有name的数据来的时候,b+树就不知道下一步该查哪一个节点,由于创建搜索树的时候name就是第一个比较因子,必需要先根据name来搜索才能知道下一步去哪里查询。好比当(张三,F)这样的数据来检索时,b+树能够用name来指定搜索方向,但下一个字段age的缺失,因此只能把名字等于张三的数据都找到,而后再匹配性别是F的数据了, 这个是很是重要的性质,即索引的最左匹配特性。

4、 汇集索引与辅助索引

在数据库中,B+树的高度通常都在2~4层,这也就是说查找某一个键值的行记录时最多只须要2到4次IO,这倒不错。由于当前通常的机械硬盘每秒至少能够作100次IO,2~4次的IO意味着查询时间只须要0.02~0.04秒。

数据库中的B+树索引能够分为汇集索引(clustered index)和辅助索引(secondary index),

汇集索引与辅助索引相同的是:无论是汇集索引仍是辅助索引,其内部都是B+树的形式,即高度是平衡的,叶子结点存放着全部的数据。

汇集索引与辅助索引不一样的是:叶子结点存放的是不是一整行的信息

一、汇集索引

#InnoDB存储引擎表示索引组织表,即表中数据按照主键顺序存放。而汇集索引(clustered index)就是按照每张表的主键构造一棵B+树,同时叶子结点存放的即为整张表的行记录数据,也将汇集索引的叶子结点称为数据页。汇集索引的这个特性决定了索引组织表中数据也是索引的一部分。同B+树数据结构同样,每一个数据页都经过一个双向链表来进行连接。
    
#若是未定义主键,MySQL取第一个惟一索引(unique)并且只含非空列(NOT NULL)做为主键,InnoDB使用它做为聚簇索引。
    
#若是没有这样的列,InnoDB就本身产生一个这样的ID值,它有六个字节,并且是隐藏的,使其做为聚簇索引。

#因为实际的数据页只能按照一棵B+树进行排序,所以每张表只能拥有一个汇集索引。在多少状况下,查询优化器倾向于采用汇集索引。由于汇集索引可以在B+树索引的叶子节点上直接找到数据。此外因为定义了数据的逻辑顺序,汇集索引可以特别快地访问针对范围值得查询。
View Code

汇集索引的好处之一:它对主键的排序查找和范围查找速度很是快,叶子节点的数据就是用户所要查询的数据。如用户须要查找一张表,查询最后的10位用户信息,因为B+树索引是双向链表,因此用户能够快速找到最后一个数据页,并取出10条记录

#参照第六小结测试索引的准备阶段来建立出表s1
mysql> desc s1; #最开始没有主键
+--------+-------------+------+-----+---------+-------+
| Field  | Type        | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id     | int(11)     | NO   |     | NULL    |       |
| name   | varchar(20) | YES  |     | NULL    |       |
| gender | char(6)     | YES  |     | NULL    |       |
| email  | varchar(50) | YES  |     | NULL    |       |
+--------+-------------+------+-----+---------+-------+
4 rows in set (0.00 sec)

mysql> explain select * from s1 order by id desc limit 10; #Using filesort,须要二次排序
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+----------------+
| id | select_type | table | partitions | type | possible_keys | key  | key_len | ref  | rows    | filtered | Extra          |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+----------------+
|  1 | SIMPLE      | s1    | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 2633472 |   100.00 | Using filesort |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+----------------+
1 row in set, 1 warning (0.11 sec)

mysql> alter table s1 add primary key(id); #添加主键
Query OK, 0 rows affected (13.37 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> explain select * from s1 order by id desc limit 10; #基于主键的汇集索引在建立完毕后就已经完成了排序,无需二次排序
+----+-------------+-------+------------+-------+---------------+---------+---------+------+------+----------+-------+
| id | select_type | table | partitions | type  | possible_keys | key     | key_len | ref  | rows | filtered | Extra |
+----+-------------+-------+------------+-------+---------------+---------+---------+------+------+----------+-------+
|  1 | SIMPLE      | s1    | NULL       | index | NULL          | PRIMARY | 4       | NULL |   10 |   100.00 | NULL  |
+----+-------------+-------+------------+-------+---------------+---------+---------+------+------+----------+-------+
1 row in set, 1 warning (0.04 sec)
View Code

汇集索引的好处之二:范围查询(range query),即若是要查找主键某一范围内的数据,经过叶子节点的上层中间节点就能够获得页的范围,以后直接读取数据页便可

mysql> alter table s1 drop primary key;
Query OK, 2699998 rows affected (24.23 sec)
Records: 2699998  Duplicates: 0  Warnings: 0

mysql> desc s1;
+--------+-------------+------+-----+---------+-------+
| Field  | Type        | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id     | int(11)     | NO   |     | NULL    |       |
| name   | varchar(20) | YES  |     | NULL    |       |
| gender | char(6)     | YES  |     | NULL    |       |
| email  | varchar(50) | YES  |     | NULL    |       |
+--------+-------------+------+-----+---------+-------+
4 rows in set (0.12 sec)

mysql> explain select * from s1 where id > 1 and id < 1000000; #没有汇集索引,预估须要检索的rows数以下
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key  | key_len | ref  | rows    | filtered | Extra       |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
|  1 | SIMPLE      | s1    | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 2690100 |    11.11 | Using where |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

mysql> alter table s1 add primary key(id);
Query OK, 0 rows affected (16.25 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> explain select * from s1 where id > 1 and id < 1000000; #有汇集索引,预估须要检索的rows数以下
+----+-------------+-------+------------+-------+---------------+---------+---------+------+---------+----------+-------------+
| id | select_type | table | partitions | type  | possible_keys | key     | key_len | ref  | rows    | filtered | Extra       |
+----+-------------+-------+------------+-------+---------------+---------+---------+------+---------+----------+-------------+
|  1 | SIMPLE      | s1    | NULL       | range | PRIMARY       | PRIMARY | 4       | NULL | 1343355 |   100.00 | Using where |
+----+-------------+-------+------------+-------+---------------+---------+---------+------+---------+----------+-------------+
1 row in set, 1 warning (0.09 sec)
View Code

二、辅助索引

表中除了汇集索引外其余索引都是辅助索引(Secondary Index,也称为非汇集索引),与汇集索引的区别是:辅助索引的叶子节点不包含行记录的所有数据。

叶子节点除了包含键值之外,每一个叶子节点中的索引行中还包含一个书签(bookmark)。该书签用来告诉InnoDB存储引擎去哪里能够找到与索引相对应的行数据。

因为InnoDB存储引擎是索引组织表,所以InnoDB存储引擎的辅助索引的书签就是相应行数据的汇集索引键。以下图

辅助索引的存在并不影响数据在汇集索引中的组织,所以每张表上能够有多个辅助索引,但只能有一个汇集索引。当经过辅助索引来寻找数据时,InnoDB存储引擎会遍历辅助索引并经过叶子级别的指针得到只想主键索引的主键,而后再经过主键索引来找到一个完整的行记录。

举例来讲,若是在一棵高度为3的辅助索引树种查找数据,那须要对这个辅助索引树遍历3次找到指定主键,若是汇集索引树的高度一样为3,那么还须要对汇集索引树进行3次查找,最终找到一个完整的行数据所在的页,所以一共须要6次逻辑IO访问才能获得最终的一个数据页。

5、MySQL索引管理

1. 功能

#1. 索引的功能就是加速查找
#2. mysql中的primary key,unique,联合惟一也都是索引,这些索引除了加速查找之外,还有约束的功能

 2. MySQL经常使用的索引

普通索引INDEX:加速查找

惟一索引:
    -主键索引PRIMARY KEY:加速查找+约束(不为空、不能重复)
    -惟一索引UNIQUE:加速查找+约束(不能重复)

联合索引:
    -PRIMARY KEY(id,name):联合主键索引
    -UNIQUE(id,name):联合惟一索引
    -INDEX(id,name):联合普通索引
举个例子来讲,好比你在为某商场作一个会员卡的系统。

这个系统有一个会员表
有下列字段:
会员编号 INT
会员姓名 VARCHAR(10)
会员身份证号码 VARCHAR(18)
会员电话 VARCHAR(10)
会员住址 VARCHAR(50)
会员备注信息 TEXT

那么这个 会员编号,做为主键,使用 PRIMARY
会员姓名 若是要建索引的话,那么就是普通的 INDEX
会员身份证号码 若是要建索引的话,那么能够选择 UNIQUE (惟一的,不容许重复)

#除此以外还有全文索引,即FULLTEXT
会员备注信息 , 若是须要建索引的话,能够选择全文搜索。
用于搜索很长一篇文章的时候,效果最好。
用在比较短的文本,若是就一两行字的,普通的 INDEX 也能够。
但其实对于全文搜索,咱们并不会使用MySQL自带的该索引,而是会选择第三方软件如Sphinx,专门来作全文搜索。

#其余的如空间索引SPATIAL,了解便可,几乎不用
View Code

3. 索引的两大类型hash与btree

#咱们能够在建立上述索引的时候,为其指定索引类型,分两类
hash类型的索引:查询单条快,范围查询慢
btree类型的索引:b+树,层数越多,数据量指数级增加(咱们就用它,由于innodb默认支持它)

#不一样的存储引擎支持的索引类型也不同
InnoDB 支持事务,支持行级别锁定,支持 B-tree、Full-text 等索引,不支持 Hash 索引;
MyISAM 不支持事务,支持表级别锁定,支持 B-tree、Full-text 等索引,不支持 Hash 索引;
Memory 不支持事务,支持表级别锁定,支持 B-tree、Hash 等索引,不支持 Full-text 索引;
NDB 支持事务,支持行级别锁定,支持 Hash 索引,不支持 B-tree、Full-text 等索引;
Archive 不支持事务,支持表级别锁定,不支持 B-tree、Hash、Full-text 等索引;

4. 建立/删除索引的语法

#方法一:建立表时
      CREATE TABLE 表名 (
                字段名1  数据类型 [完整性约束条件…],
                字段名2  数据类型 [完整性约束条件…],
                [UNIQUE | FULLTEXT | SPATIAL ]   INDEX | KEY6.
                [索引名]  (字段名[(长度)]  [ASC |DESC]) 
                );


#方法二:CREATE在已存在的表上建立索引
        CREATE  [UNIQUE | FULLTEXT | SPATIAL ]  INDEX  索引名 
                     ON 表名 (字段名[(长度)]  [ASC |DESC]) ;


#方法三:ALTER TABLE在已存在的表上建立索引
        ALTER TABLE 表名 ADD  [UNIQUE | FULLTEXT | SPATIAL ] INDEX
                             索引名 (字段名[(长度)]  [ASC |DESC]) ;
                             
#删除索引:DROP INDEX 索引名 ON 表名字;
#方式一
create table t1(
    id int,
    name char,
    age int,
    sex enum('male','female'),
    unique key uni_id(id),
    index ix_name(name) #index没有key
);


#方式二
create index ix_age on t1(age);

#方式三
alter table t1 add index ix_sex(sex);

#查看
mysql> show create table t1;
| t1    | CREATE TABLE `t1` (
  `id` int(11) DEFAULT NULL,
  `name` char(1) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  `sex` enum('male','female') DEFAULT NULL,
  UNIQUE KEY `uni_id` (`id`),
  KEY `ix_name` (`name`),
  KEY `ix_age` (`age`),
  KEY `ix_sex` (`sex`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1
示范

6、测试索引

1. 准备

#1. 准备表
create table s1(
id int,
name varchar(20),
gender char(6),
email varchar(50)
);

#2. 建立存储过程,实现批量插入记录
delimiter $$ #声明存储过程的结束符号为$$
create procedure auto_insert1()
BEGIN
    declare i int default 1;
    while(i<3000000)do
        insert into s1 values(i,'egon','male',concat('egon',i,'@oldboy'));
        set i=i+1;
    end while;
END$$ #$$结束
delimiter ; #从新声明分号为结束符号

#3. 查看存储过程
show create procedure auto_insert1\G 

#4. 调用存储过程
call auto_insert1();
View Code

2. 在没有索引的前提下测试查询速度

#无索引:mysql根本就不知道究竟是否存在id等于333333333的记录,只能把数据表从头至尾扫描一遍,此时有多少个磁盘块就须要进行多少IO操做,因此查询速度很慢
mysql> select * from s1 where id=333333333;
Empty set (0.33 sec)

3. 在表中已经存在大量数据的前提下,为某个字段段创建索引,创建速度会很慢

4. 在索引创建完毕后,以该字段为查询条件时,查询速度提高明显

PS:

1. mysql先去索引表里根据b+树的搜索原理很快搜索到id等于333333333的记录不存在,IO大大下降,于是速度明显提高

2. 咱们能够去mysql的data目录下找到该表,能够看到占用的硬盘空间多了

3. 须要注意,以下图

5 总结

#1. 必定是为搜索条件的字段建立索引,好比select * from s1 where id = 333;就须要为id加上索引

#2. 在表中已经有大量数据的状况下,建索引会很慢,且占用硬盘空间,建完后查询速度加快
好比create index idx on s1(id);会扫描表中全部的数据,而后以id为数据项,建立索引结构,存放于硬盘的表中。
建完之后,再查询就会很快了。

#3. 须要注意的是:innodb表的索引会存放于s1.ibd文件中,而myisam表的索引则会有单独的索引文件table1.MYI

MySAM索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。而在innodb中,表数据文件自己就是按照B+Tree(BTree即Balance True)组织的一个索引结构,这棵树的叶节点data域保存了完整的数据记录。这个索引的key是数据表的主键,所以innodb表数据文件自己就是主索引。
由于inndob的数据文件要按照主键汇集,因此innodb要求表必需要有主键(Myisam能够没有),若是没有显式定义,则mysql系统会自动选择一个能够惟一标识数据记录的列做为主键,若是不存在这种列,则mysql会自动为innodb表生成一个隐含字段做为主键,这字段的长度为6个字节,类型为长整型.
总结

 七. 正确使用索引

并非说咱们建立了索引就必定会加快查询速度,若想利用索引达到预想的提升查询速度的效果,咱们在添加索引时,必须遵循一些规则,避免不恰当索引,过多索引的问题

咱们知道对于查询的三种状况:缓存查询,全盘扫描,索引扫描,其中缓存查询为最快,要尽可能避免全盘扫描。

咱们能够经过explain(desc)命令获取优化器选择后的执行计划

explain select * from city where countrycode='CHN'\G
# 执行结果 
        id: 1
  select_type: SIMPLE
        table: t1
   partitions: NULL
         type: range
possible_keys: PRIMARY
          key: PRIMARY
      key_len: 4
          ref: NULL
         rows: 9
     filtered: 100.00
        Extra: Using where

上述结果,有些关键的字段值得咱们注意

关键字之type

咱们能够看到这次的type为range,是索引范围扫描

对于索引扫描来说,又能够细划分,能够判断是哪种类的索引扫描

type的具体类型介绍:

数据准备

+-------------+----------+------+-----+---------+----------------+
| Field       | Type     | Null | Key | Default | Extra          |
+-------------+----------+------+-----+---------+----------------+
| ID          | int(11)  | NO   | PRI | NULL    | auto_increment |
| Name        | char(35) | NO   |     |         |                |
| CountryCode | char(3)  | NO   | MUL |         |                |
| District    | char(20) | NO   |     |         |                |
| Population  | int(11)  | NO   |     | 0       |                |
+-------------+----------+------+-----+---------+----------------+

# 能够看出除了ID建了一个汇集索引,CountryCode建了一个普通索引外,其他字段都没有索引
city表结构
select count(*) from city;

+----------+
| count(*) |
+----------+
|     4079 |
+----------+
city表内数据量

1.  ALL:全盘扫描

desc select * from city where Name="ShangHai"\G;

# Name字段没有创建索引,查询是全盘扫描

          id: 1
  select_type: SIMPLE
        table: city
   partitions: NULL
         type: ALL
possible_keys: NULL
          key: NULL
      key_len: NULL
          ref: NULL
         rows: 4188
     filtered: 10.00
        Extra: Using where
View Code

2. Index:全索引扫描

desc select CountryCode from city\G;

          id: 1
  select_type: SIMPLE
        table: city
   partitions: NULL
         type: index
possible_keys: NULL
          key: CountryCode
      key_len: 3
          ref: NULL
         rows: 4188
     filtered: 100.00
        Extra: Using index
View Code

3. range:索引范围扫描

 desc select * from city where CountryCode in ("CHN","USA");

where后面跟
    where > <  >= <=
    # 不能!=
    in   or   between and
    # 不能是not in 
    like 'CH%'
    # 不能是前缀%,如like '%HN'
View Code
in 或者 or 改写成 union all    
    select * from city where countrycode='CHN'
    union all 
    select * from city where countrycode='USA';

# type为ref
View Code

4. ref:辅助索引的等值查询

select * from city where countrycode='CHN'
View Code

5. eq_ref:多表连接查询(join on )

6. const ,system:主键或惟一键等值查询

 desc select * from city where ID=2252;
View Code

关键字之Extra

 对于语句在Extra列会出现Using filesort,根据mysql官方文档对他的描述:

MySQL must do an extra pass to find out how to retrieve the rows in sorted order. The sort is done by going through all rows according to the join type and storing the sort key and pointer to the row for all rows that match the WHERE clause.
Using filesort 是Mysql里一种速度比较慢的外部排序,尽可能避免

using  filesort:    文件排序
    将order by、group by、distinct 后的列和where条件列创建联合索引

关键字之possible_keys:表明可能会走的索引

关键字之key: 真正走的索引

八. 联合索引和覆盖索引

一 联合索引

联合索引时指对表上的多个列合起来作一个索引。联合索引的建立方法与单个索引的建立方法同样,不一样之处在仅在于有多个索引列,以下

mysql> create table t(
    -> a int,
    -> b int,
    -> primary key(a),
    -> key idx_a_b(a,b)
    -> );
Query OK, 0 rows affected (0.11 sec)

 那么什么时候须要使用联合索引呢?在讨论这个问题以前,先来看一下联合索引内部的结果。从本质上来讲,联合索引就是一棵B+树,不一样的是联合索引的键值得数量不是1,而是>=2。接着来讨论两个整型列组成的联合索引,假定两个键值得名称分别为a、b如图

能够看到这与咱们以前看到的单个键的B+树并无什么不一样,键值都是排序的,经过叶子结点能够逻辑上顺序地读出全部数据,就上面的例子来讲,即(1,1),(1,2),(2,1),(2,4),(3,1),(3,2),数据按(a,b)的顺序进行了存放。

所以,对于查询select * from table where a=xxx and b=xxx, 显然是可使用(a,b) 这个联合索引的,对于单个列a的查询select * from table where a=xxx,也是可使用(a,b)这个索引的。

但对于b列的查询select * from table where b=xxx,则不可使用(a,b) 索引,其实你不难发现缘由,叶子节点上b的值为一、二、一、四、一、2显然不是排序的,所以对于b列的查询使用不到(a,b) 索引

联合索引的第二个好处是在第一个键相同的状况下,已经对第二个键进行了排序处理,例如在不少状况下应用程序都须要查询某个用户的购物状况,并按照时间进行排序,最后取出最近三次的购买记录,这时使用联合索引能够帮咱们避免多一次的排序操做,由于索引自己在叶子节点已经排序了,以下

#===========准备表==============
create table buy_log(
    userid int unsigned not null,
    buy_date date
);

insert into buy_log values
(1,'2009-01-01'),
(2,'2009-01-01'),
(3,'2009-01-01'),
(1,'2009-02-01'),
(3,'2009-02-01'),
(1,'2009-03-01'),
(1,'2009-04-01');

alter table buy_log add key(userid);
alter table buy_log add key(userid,buy_date);

#===========验证==============
mysql> show create table buy_log;
| buy_log | CREATE TABLE `buy_log` (
  `userid` int(10) unsigned NOT NULL,
  `buy_date` date DEFAULT NULL,
  KEY `userid` (`userid`),
  KEY `userid_2` (`userid`,`buy_date`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 |

#能够看到possible_keys在这里有两个索引能够用,分别是单个索引userid与联合索引userid_2,可是优化器最终选择了使用的key是userid由于该索引的叶子节点包含单个键值,因此理论上一个页能存放的记录应该更多
mysql> explain select * from buy_log where userid=2;
+----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
| id | select_type | table   | type | possible_keys   | key    | key_len | ref   | rows | Extra |
+----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
|  1 | SIMPLE      | buy_log | ref  | userid,userid_2 | userid | 4       | const |    1 |       |
+----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
1 row in set (0.00 sec)

#接着假定要取出userid为1的最近3次的购买记录,用的就是联合索引userid_2了,由于在这个索引中,在userid=1的状况下,buy_date都已经排序好了
mysql> explain select * from buy_log where userid=1 order by buy_date desc limit 3;
+----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
| id | select_type | table   | type | possible_keys   | key      | key_len | ref   | rows | Extra                    |
+----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
|  1 | SIMPLE      | buy_log | ref  | userid,userid_2 | userid_2 | 4       | const |    4 | Using where; Using index |
+----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
1 row in set (0.00 sec)

#ps:若是extra的排序显示是Using filesort,则意味着在查出数据后须要二次排序(以下查询语句,没有先用where userid=3先定位范围,因而即使命中索引也没用,须要二次排序)
mysql> explain select * from buy_log order by buy_date desc limit 3;
+----+-------------+---------+-------+---------------+----------+---------+------+------+-----------------------------+
| id | select_type | table   | type  | possible_keys | key      | key_len | ref  | rows | Extra                       |
+----+-------------+---------+-------+---------------+----------+---------+------+------+-----------------------------+
|  1 | SIMPLE      | buy_log | index | NULL          | userid_2 | 8       | NULL |    7 | Using index; Using filesort |
+----+-------------+---------+-------+---------------+----------+---------+------+------+-----------------------------+


#对于联合索引(a,b),下述语句能够直接使用该索引,无需二次排序
select ... from table where a=xxx order by b;

#而后对于联合索引(a,b,c)来首,下列语句一样能够直接经过索引获得结果
select ... from table where a=xxx order by b;
select ... from table where a=xxx and b=xxx order by c;

#可是对于联合索引(a,b,c),下列语句不能经过索引直接获得结果,还须要本身执行一次filesort操做,由于索引(a,c)并未排序
select ... from table where a=xxx order by c;
View Code

二 覆盖索引

InnoDB存储引擎支持覆盖索引(covering index,或称索引覆盖),即从辅助索引中就能够获得查询记录,而不须要查询汇集索引中的记录。

使用覆盖索引的一个好处是:辅助索引不包含整行记录的全部信息,故其大小要远小于汇集索引,所以能够减小大量的IO操做


 注意:覆盖索引技术最先是在InnoDB Plugin中完成并实现,这意味着对于InnoDB版本小于1.0的,或者MySQL数据库版本为5.0如下的,InnoDB存储引擎不支持覆盖索引特性


对于InnoDB存储引擎的辅助索引而言,因为其包含了主键信息,所以其叶子节点存放的数据为(primary key1,priamey key2,...,key1,key2,...)。例如

select age from s1 where id=123 and name = 'bob; #id字段有索引,可是name字段没有索引,该sql命中了索引,但未覆盖,须要去汇集索引中再查找详细信息。
最牛逼的状况是,索引字段覆盖了全部,那全程经过索引来加速查询以及获取结果就ok了
mysql> desc s1;
+--------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id | int(11) | NO | | NULL | |
| name | varchar(20) | YES | | NULL | |
| gender | char(6) | YES | | NULL | |
| email | varchar(50) | YES | | NULL | |
+--------+-------------+------+-----+---------+-------+
4 rows in set (0.21 sec)

mysql> explain select name from s1 where id=1000; #没有任何索引
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
| 1 | SIMPLE | s1 | NULL | ALL | NULL | NULL | NULL | NULL | 2688336 | 10.00 | Using where |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

mysql> create index idx_id on s1(id); #建立索引
Query OK, 0 rows affected (4.16 sec)
Records: 0 Duplicates: 0 Warnings: 0

mysql> explain select name from s1 where id=1000; #命中辅助索引,可是未覆盖索引,还须要从汇集索引中查找name
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
| 1 | SIMPLE | s1 | NULL | ref | idx_id | idx_id | 4 | const | 1 | 100.00 | NULL |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
1 row in set, 1 warning (0.08 sec)

mysql> explain select id from s1 where id=1000; #在辅助索引中就找到了所有信息,Using index表明覆盖索引
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
| 1 | SIMPLE | s1 | NULL | ref | idx_id | idx_id | 4 | const | 1 | 100.00 | Using index |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
1 row in set, 1 warning (0.03 sec)
View Code

覆盖索引的另一个好处是对某些统计问题而言的。基于上一小结建立的表buy_log,查询计划以下

mysql> explain select count(*) from buy_log;
+----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
| id | select_type | table   | type  | possible_keys | key    | key_len | ref  | rows | Extra       |
+----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
|  1 | SIMPLE      | buy_log | index | NULL          | userid | 4       | NULL |    7 | Using index |
+----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
1 row in set (0.00 sec)
View Code

innodb存储引擎并不会选择经过查询汇集索引来进行统计。因为buy_log表有辅助索引,而辅助索引远小于汇集索引,选择辅助索引能够减小IO操做,故优化器的选择如上key为userid辅助索引

对于(a,b)形式的联合索引,通常是不能够选择b中所谓的查询条件。但若是是统计操做,而且是覆盖索引,则优化器仍是会选择使用该索引,以下

#联合索引userid_2(userid,buy_date),通常状况,咱们按照buy_date是没法使用该索引的,但特殊状况下:查询语句是统计操做,且是覆盖索引,则按照buy_date当作查询条件时,也可使用该联合索引
mysql> explain select count(*) from buy_log where buy_date >= '2011-01-01' and buy_date < '2011-02-01';
+----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
| id | select_type | table   | type  | possible_keys | key      | key_len | ref  | rows | Extra                    |
+----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
|  1 | SIMPLE      | buy_log | index | NULL          | userid_2 | 8       | NULL |    7 | Using where; Using index |
+----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
1 row in set (0.00 sec)
View Code

九. 索引使用的相关问题

1.尽可能选择区分度高的列做为索引,区分度的公式是count(distinct col)/count(*),表示字段不重复的比例,比例越大咱们扫描的记录数越少,惟一键的区分度是1,而一些状态、性别字段可能在大数据面前区分度就是0,那可能有人会问,这个比例有什么经验值吗?使用场景不一样,这个值也很难肯定,通常须要join的字段咱们都要求是0.1以上,即平均1条扫描10条记录

咱们编写存储过程为表s1批量添加记录,name字段的值均为egon,也就是说name这个字段的区分度很低(gender字段也是同样的,咱们稍后再搭理它)

回忆b+树的结构,查询的速度与树的高度成反比,要想将树的高低控制的很低,须要保证:在某一层内数据项均是按照从左到右,从小到大的顺序依次排开,即左1<左2<左3<...

而对于区分度低的字段,没法找到大小关系,由于值都是相等的,毫无疑问,还想要用b+树存放这些等值的数据,只能增长树的高度,字段的区分度越低,则树的高度越高。极端的状况,索引字段的值都同样,那么b+树几乎成了一根棍。本例中就是这种极端的状况,name字段全部的值均为'egon'

#如今咱们得出一个结论:为区分度低的字段创建索引,索引树的高度会很高,然而这具体会带来什么影响呢???

#1:若是条件是name='xxxx',那么确定是能够第一时间判断出'xxxx'是不在索引树中的(由于树中全部的值均为'egon’),因此查询速度很快

#2:若是条件正好是name='egon',查询时,咱们永远没法从树的某个位置获得一个明确的范围,只能往下找,往下找,往下找。。。这与全表扫描的IO次数没有多大区别,因此速度很慢
View Code

3 =和in能够乱序,好比a = 1 and b = 2 and c = 3 创建(a,b,c)索引能够任意顺序,mysql的查询优化器会帮你优化成索引能够识别的形式

4 索引列不能参与计算,保持列“干净”,好比from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,缘由很简单,b+树中存的都是数据表中的字段值,但进行检索时,须要把全部元素都应用函数才能比较,显然成本太大。因此语句应该写成create_time = unix_timestamp(’2014-05-29’)

5 最左前缀匹配原则(详见第八小节),很是重要的原则,对于组合索引mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就中止匹配(指的是范围大了,有索引速度也慢),好比a = 1 and b = 2 and c > 3 and d = 4 若是创建(a,b,c,d)顺序的索引,d是用不到索引的,若是创建(a,b,d,c)的索引则均可以用到,a,b,d的顺序能够任意调整。

6. 其余状况

- 使用函数
    select * from tb1 where reverse(email) = 'egon';
            
- 类型不一致
    若是列是字符串类型,传入条件是必须用引号引发来,否则...
    select * from tb1 where email = 999;
    
#排序条件为索引,则select字段必须也是索引字段,不然没法命中
- order by
    select name from s1 order by email desc;
    当根据索引排序时候,select查询的字段若是不是索引,则速度仍然很慢
    select email from s1 order by email desc;
    特别的:若是对主键排序,则仍是速度很快:
        select * from tb1 order by nid desc;
 
- 组合索引最左前缀
    若是组合索引为:(name,email)
    name and email       -- 命中索引
    name                 -- 命中索引
    email                -- 未命中索引


- count(1)或count(列)代替count(*)在mysql中没有差异了

- create index xxxx  on tb(title(19)) #text类型,必须制定长度
View Code
相关文章
相关标签/搜索