什么是索引?html
索引在MySQL中也叫作“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能mysql
很是关键,尤为是当表中的数据量愈来愈大时,索引对于性能的影响愈发重要。算法
索引优化应该是对查询性能优化最有效的手段了。索引可以轻易将查询性能提升好几个数量级。sql
索引至关于字典的音序表,若是要查某个字,若是不使用音序表,则须要从几百页中逐页去查。数据库
先引进聚簇索引和非聚簇索引的概念! 咱们平时在使用的Mysql中,使用下述语句 CREATE [UNIQUE|FULLTEXT|SPATIAL] INDEX index_name [USING index_type] ON tbl_name (index_col_name,...) index_col_name: col_name [(length)] [ASC | DESC] 建立的索引,如复合索引、前缀索引、惟一索引,都是属于非聚簇索引,在有的书籍中,又将其称为辅助索引(secondary index)。在后文中,咱们称其为非聚簇索引,其数据结构为B+树。
非聚簇索引(辅助索引secondary index)- 复合索引、前缀索引、惟一索引。
聚簇索引(主键索引)-在Innodb中,Mysql中的数据是按照主键的顺序来存放的。那么聚簇索引就是按照每张表的主键来构造一颗B+树,叶子节点存放的就是整张表的行数据。
因为表里的数据只能按照一颗B+树排序,所以一张表只能有一个聚簇索引。 在Innodb中,聚簇索引默认就是主键索引。
那么,这个聚簇索引,在Mysql中是没有语句来另外生成的。
假设表没建主键呢?vim
回答是,若是没有主键,则按照下列规则来建聚簇索引。性能优化
没有主键时,会用一个惟一且不为空的索引列作为主键,成为此表的聚簇索引若是没有这样的索引,InnoDB会隐式定义一个主键来做为聚簇索引。 服务器
举例来讲: 自增主键和uuid做为主键的区别么?数据结构
因为主键使用了聚簇索引,若是主键是自增id,那么对应的数据必定也是相邻地存放在磁盘上的。写入性能比较高。函数
若是是uuid的形式,频繁的插入会使innodb频繁地移动磁盘块,写入性能就比较低了。
索引原理介绍
索引的目的在于提升查询效率,与咱们查阅图书所用的目录是一个道理:先定位到章,而后定位到该章下的一个小节,而后找到页数。
类似的例子还有:查字典,查火车车次,飞机航班等。
本质都是:经过不断地缩小想要获取数据的范围来筛选出最终想要的结果,同时把随机的事件变成顺序的事件。
也就是说,有了这种索引机制,咱们能够老是用同一种查找方式来锁定数据。
数据库也是同样,但显然要复杂的多,由于不只面临着等值查询,还有范围查询(>、<、between、in)、模糊查询(like)、并集查询(or)等等。
数据库应该选择怎么样的方式来应对全部的问题呢?咱们回想字典的例子,能不能把数据分红段,而后分段查询呢?
最简单的若是1000条数据,1到100分红第一段,101到200分红第二段,201到300分红第三段......这样查第250条数据。
只要找第三段就能够了,一会儿去除了90%的无效数 据。但若是是1千万的记录呢,分红几段比较好?
稍有算法基础的同窗会想到搜索树,其平均复杂度是lgN,具备不错的查询性能。
但这里咱们忽略了一个关键的问题,复杂度模型是基于每次相同的操做成原本考虑的。
而数据库实现比较复杂,一方面数据是保存在磁盘上的,另一方面为了提升性能。
每次又能够把部分数据读入内存来计算,由于咱们知道访问磁盘的成本大概是访问内存的十万倍左右,因此简单的搜索树难以知足复杂的应用场景。
先来一张带主键的表,以下所示,pId是主键
pId | name | birthday |
---|---|---|
5 | zhangsan | 2016-10-02 |
8 | lisi | 2015-10-04 |
11 | wangwu | 2016-09-02 |
13 | zhaoliu | 2015-10-07 |
结构图以下
如上图所示,分为上下两个部分,上半部分是由主键造成的B+树,下半部分就是磁盘上真实的数据!那么,当咱们, 执行下面的语句
1
|
select
*
from
table
where
pId=
'11'
|
那么,执行过程以下
如上图所示,从根开始,通过3次查找,就能够找到真实数据。若是不使用索引,那就要在磁盘上,进行逐行扫描,直到找到数据位置。
显然,使用索引速度会快。可是在写入数据的时候,须要维护这颗B+树的结构,所以写入性能会降低!
OK,接下来引入非聚簇索引!咱们执行下面的语句
1
|
create
index
index_name
on
table
(
name
);
|
结构图以下
注意看,会根据你的索引字段生成一颗新的B+树。所以, 咱们每加一个索引,就会增长表的体积, 占用磁盘存储空间。
然而,注意看叶子节点,非聚簇索引的叶子节点并非真实数据,它的叶子节点依然是索引节点,存放的是该索引字段的值以及对应的主键索引(聚簇索引)。
若是咱们执行下列语句
1
|
select
*
from
table
where
name
=
'lisi'
|
结构图以下
经过上图红线能够看出,先从非聚簇索引树开始查找,而后找到聚簇索引后。根据聚簇索引,在聚簇索引的B+树上,找到完整的数据!
什么状况不去聚簇索引树上查询呢?
还记得咱们的非聚簇索引树上存着该索引字段的值么。若是,此时咱们执行下面的语句
1
|
select
name
from
table
where
name
=
'lisi'
|
结构图以下
如上图红线所示,若是在非聚簇索引树上找到了想要的值,就不会去聚簇索引树上查询。
当执行select col from table where col = ?,col上有索引的时候,效率比执行select * from table where col = ? 速度快好几倍!
那么这个时候,咱们执行了下述语句,又会发生什么呢?
1
|
create
index
index_birthday
on
table
(birthday);
|
结构图以下
看到了多加一个索引,就会多生成一颗非聚簇索引树。
磁盘IO与预读
前面提到了访问磁盘,那么这里先简单介绍一下磁盘IO和预读,
磁盘读取数据靠的是机械运动,每次读取数据花费的时间能够分为寻道时间、旋转延迟、传输时间三个部分,
寻道时间指的是磁臂移动到指定磁道所须要的时间,主流磁盘通常在5ms如下;
旋转延迟就是咱们常常据说的磁盘转速,好比一个磁盘7200转,表示每分钟能转7200次,也就是说1秒钟能转120次,旋转延迟就是1/120/2 = 4.17ms;
传输时间指的是从磁盘读出或将数据写入磁盘的时间,通常在零点几毫秒,相对于前两个时间能够忽略不计。
那么访问一次磁盘的时间,即一次磁盘IO的时间约等于5+4.17 = 9ms左右,
听起来还挺不错的,但要知道一台500 -MIPS(Million Instructions Per Second)的机器每秒能够执行5亿条指令,
由于指令依靠的是电的性质,换句话说执行一次IO的时间能够执行约450万条指令,
数据库动辄十万百万乃至千万级数据,每次9毫秒的时间,显然是个灾难。下图是计算机硬件延迟的对比图,供你们参考:
考虑到磁盘IO是很是高昂的操做,计算机操做系统作了一些优化,
当一次IO时,不光把当前磁盘地址的数据,而是把相邻的数据也都读取到内存缓冲区内,
由于局部预读性原理告诉咱们,当计算机访问一个地址的数据的时候,与其相邻的数据也会很快被访问到。
每一次IO读取的数据咱们称之为一页(page)。
具体一页有多大数据跟操做系统有关,通常为4k或8k,也就是咱们读取一页内的数据时候,
实际上才发生了一次IO,这个理论对于索引的数据结构设计很是有帮助。
索引的数据结构
前面索引的基本原理,数据库的复杂性,操做系统的相关知识,
目的是了解任何一种数据结构都不是凭空产生的,必定会有它的背景和使用场景,
总结一下,咱们须要这种数据结构可以作些什么,
其实很简单,那就是:每次查找数据时把磁盘IO次数控制在一个很小的数量级,最好是常数数量级。
那么咱们就想到若是一个高度可控的多路搜索树是否能知足需求呢?
就这样,b+树应运而生(B+树是经过二叉查找树,再由平衡二叉树,B树演化而来)。
如上图,是一颗b+树,关于b+树的定义能够参见B+树,
这里只说一些重点,浅蓝色的块咱们称之为一个磁盘块,能够看到每一个磁盘块包含几个数据项(深蓝色所示)和指针(黄色所示),
如磁盘块1包含数据项17和35,
包含指针P一、P二、P3,P1表示小于17的磁盘块,P2表示在17和35之间的磁盘块,P3表示大于35的磁盘块。
真实的数据存在于叶子节点即三、五、九、十、1三、1五、2八、2九、3六、60、7五、7九、90、99。
非叶子节点只不存储真实的数据,只存储指引搜索方向的数据项,如1七、35并不真实存在于数据表中。
###b+树的查找过程
如图所示,若是要查找数据项29,那么首先会把磁盘块1由磁盘加载到内存,
此时发生一次IO,在内存中用二分查找肯定29在17和35之间,锁定磁盘块1的P2指针,
内存时间由于很是短(相比磁盘的IO)能够忽略不计,经过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘加载到内存,
发生第二次IO,29在26和30之间,锁定磁盘块3的P2指针,经过指针加载磁盘块8到内存,
发生第三次IO,同时内存中作二分查找找到29,结束查询,总计三次IO。
真实的状况是,3层的b+树能够表示上百万的数据,若是上百万的数据查找只须要三次IO,
性能提升将是巨大的,若是没有索引,每一个数据项都要发生一次IO,那么总共须要百万次的IO,显然成本很是很是高。
###b+树性质
1.索引字段要尽可能的小:经过上面的分析,咱们知道IO次数取决于b+数的高度h,
假设当前数据表的数据为N,每一个磁盘块的数据项的数量是m,则有h=㏒(m+1)N,当数据量 N必定的状况下,m越大,h越小;
而m = 磁盘块的大小 / 数据项的大小,磁盘块的大小也就是一个数据页的大小,是固定的,
若是数据项占的空间越小,数据项的数量越多,树的高度越低。这就是为何每一个数据项,即索引字段要尽可能的小,好比int占4字节,要比bigint8字节少一半。
这也是为何b+树要求把真实的数据放到叶子节点而不是内层节点,一旦放到内层节点,磁盘块的数据项会大幅度降低,致使树增高。
当数据项等于1时将会退化成线性表。
2.索引的最左匹配特性:当b+树的数据项是复合的数据结构,好比(name,age,sex)的时候,b+数是按照从左到右的顺序来创建搜索树的,
好比当(张三,20,F)这样的数据来检索的时候,b+树会优先比较name来肯定下一步的所搜方向,若是name相同再依次比较age和sex,最后获得检索的数据;
但当(20,F)这样的没有name的数据来的时候,b+树就不知道下一步该查哪一个节点,
由于创建搜索树的时候name就是第一个比较因子,必需要先根据name来搜索才能知道下一步去哪里查询。
好比当(张三,F)这样的数据来检索时,b+树能够用name来指定搜索方向,
但下一个字段age的缺失,因此只能把名字等于张三的数据都找到,而后再匹配性别是F的数据了, 这个是很是重要的性质,即索引的最左匹配特性。
汇集索引与辅助索引
在数据库中,B+树的高度通常都在2~4层,这也就是说查找某一个键值的行记录时最多只须要2到4次IO,这倒不错。
由于当前通常的机械硬盘每秒至少能够作100次IO,2~4次的IO意味着查询时间只须要0.02~0.04秒。
数据库中的B+树索引能够分为汇集索引(clustered index)和辅助索引(secondary index),
汇集索引与辅助索引相同的是:
无论是汇集索引仍是辅助索引,其内部都是B+树的形式,即高度是平衡的,叶子结点存放着全部的数据。
汇集索引与辅助索引不一样的是:
叶子结点存放的是不是一整行的信息
汇集索引
#InnoDB存储引擎表示索引组织表,即表中数据按照主键顺序存放。而汇集索引(clustered index)就是按照每张表的主键构造一棵B+树,同时叶子结点存放的即为整张表的行记录数据,也将汇集索引的叶子结点称为数据页。汇集索引的这个特性决定了索引组织表中数据也是索引的一部分。
同B+树数据结构同样,每一个数据页都经过一个双向链表来进行连接。 #若是未定义主键,MySQL取第一个惟一索引(unique)并且只含非空列(NOT NULL)做为主键,InnoDB使用它做为聚簇索引。 #若是没有这样的列,InnoDB就本身产生一个这样的ID值,它有六个字节,并且是隐藏的,使其做为聚簇索引。#因为实际的数据页只能按照一棵B+树进行排序,所以每张表只能拥有一个汇集索引。在多少状况下,查询优化器倾向于采用汇集索引。
由于汇集索引可以在B+树索引的叶子节点上直接找到数据。此外因为定义了数据的逻辑顺序,汇集索引可以特别快地访问针对范围值得查询。
汇集索引的好处之一:它对主键的排序查找和范围查找速度很是快,叶子节点的数据就是用户所要查询的数据。
如用户须要查找一张表,查询最后的10位用户信息,因为B+树索引是双向链表,因此用户能够快速找到最后一个数据页,并取出10条记录
汇集索引的好处之二:范围查询(range query),即若是要查找主键某一范围内的数据,经过叶子节点的上层中间节点就能够获得页的范围,以后直接读取数据页便可
辅助索引
表中除了汇集索引外其余索引都是辅助索引(Secondary Index,也称为非汇集索引),
与汇集索引的区别是:辅助索引的叶子节点不包含行记录的所有数据。
叶子节点除了包含键值之外,每一个叶子节点中的索引行中还包含一个书签(bookmark)。
该书签用来告诉InnoDB存储引擎去哪里能够找到与索引相对应的行数据。
因为InnoDB存储引擎是索引组织表,所以InnoDB存储引擎的辅助索引的书签就是相应行数据的汇集索引键。以下图:
辅助索引的存在并不影响数据在汇集索引中的组织,所以每张表上能够有多个辅助索引,但只能有一个汇集索引。
当经过辅助索引来寻找数据时,InnoDB存储引擎会遍历辅助索引并经过叶子级别的指针得到只想主键索引的主键,而后再经过主键索引来找到一个完整的行记录。
举例来讲,若是在一棵高度为3的辅助索引树种查找数据,
那须要对这个辅助索引树遍历3次找到指定主键,若是汇集索引树的高度一样为3,
那么还须要对汇集索引树进行3次查找,最终找到一个完整的行数据所在的页,所以一共须要6次逻辑IO访问才能获得最终的一个数据页。
MySQL索引管理
功能
1. 索引的功能就是加速查找
2. mysql中的primary key,unique,联合惟一也都是索引,这些索引除了加速查找之外,还有约束的功能
MySQL经常使用的索引
普通索引INDEX:加速查找
惟一索引: -主键索引PRIMARY KEY:加速查找+约束(不为空、不能重复) -惟一索引UNIQUE:加速查找+约束(不能重复)
联合索引: -PRIMARY KEY(id,name):联合主键索引 -UNIQUE(id,name):联合惟一索引 -INDEX(id,name):联合普通索引
索引的两大类型hash与btree
#咱们能够在建立上述索引的时候,为其指定索引类型,分两类
hash类型的索引:查询单条快,范围查询慢
btree类型的索引:b+树,层数越多,数据量指数级增加(咱们就用它,由于innodb默认支持它)#不一样的存储引擎支持的索引类型也不同
InnoDB 支持事务,支持行级别锁定,支持 B-tree、Full-text 等索引,不支持 Hash 索引;
MyISAM 不支持事务,支持表级别锁定,支持 B-tree、Full-text 等索引,不支持 Hash 索引;
Memory 不支持事务,支持表级别锁定,支持 B-tree、Hash 等索引,不支持 Full-text 索引;
NDB 支持事务,支持行级别锁定,支持 Hash 索引,不支持 B-tree、Full-text 等索引;
Archive 不支持事务,支持表级别锁定,不支持 B-tree、Hash、Full-text 等索引;
建立/删除索引的语法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
#方法一:建立表时
CREATE
TABLE
表名 (
字段名1 数据类型 [完整性约束条件…],
字段名2 数据类型 [完整性约束条件…],
[
UNIQUE
| FULLTEXT | SPATIAL ]
INDEX
|
KEY
[索引名] (字段名[(长度)] [
ASC
|
DESC
])
);
#方法二:
CREATE
在已存在的表上建立索引
CREATE
[
UNIQUE
| FULLTEXT | SPATIAL ]
INDEX
索引名
ON
表名 (字段名[(长度)] [
ASC
|
DESC
]) ;
#方法三:
ALTER
TABLE
在已存在的表上建立索引
ALTER
TABLE
表名
ADD
[
UNIQUE
| FULLTEXT | SPATIAL ]
INDEX
索引名 (字段名[(长度)] [
ASC
|
DESC
]) ;
#删除索引:
DROP
INDEX
索引名
ON
表名字;
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
|
#方式一
create
table
t1(
id
int
,
name
char
,
age
int
,
sex enum(
'male'
,
'female'
),
unique
key
uni_id(id),
index
ix_name(
name
) #
index
没有
key
);
#方式二
create
index
ix_age
on
t1(age);
#方式三
alter
table
t1
add
index
ix_sex(sex);
#查看
mysql> show
create
table
t1;
| t1 |
CREATE
TABLE
`t1` (
`id`
int
(11)
DEFAULT
NULL
,
`
name
`
char
(1)
DEFAULT
NULL
,
`age`
int
(11)
DEFAULT
NULL
,
`sex` enum(
'male'
,
'female'
)
DEFAULT
NULL
,
UNIQUE
KEY
`uni_id` (`id`),
KEY
`ix_name` (`
name
`),
KEY
`ix_age` (`age`),
KEY
`ix_sex` (`sex`)
) ENGINE=InnoDB
DEFAULT
CHARSET=latin1
|
测试索引
准备
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
|
#1. 准备表
create
table
s1(
id
int
,
name
varchar
(20),
gender
char
(6),
email
varchar
(50)
);
#2. 建立存储过程,实现批量插入记录
delimiter $$ #声明存储过程的结束符号为$$
create
procedure
auto_insert1()
BEGIN
declare
i
int
default
1;
while(i<3000000)do
insert
into
s1
values
(i,
'duoduo'
,
'male'
,concat(
'duoduo'
,i,
'@oldboy'
));
set
i=i+1;
end
while;
END
$$ #$$结束
delimiter ; #从新声明分号为结束符号
#3. 查看存储过程
show
create
procedure
auto_insert1\G
#4. 调用存储过程
call auto_insert1();
#等到时间长短,看机器性能
|
提示:建立表的时间长短,看机器的性能,请耐心等待!
在没有索引的前提下测试查询速度
1
2
3
|
#无索引:mysql根本就不知道究竟是否存在id等于333333333的记录,只能把数据表从头至尾扫描一遍,此时有多少个磁盘块就须要进行多少IO操做,因此查询速度很慢
mysql>
select
*
from
s1
where
id=333333333;
Empty
set
(0.33 sec)
|
在表中已经存在大量数据的前提下,为某个字段段创建索引,创建速度会很慢
在索引创建完毕后,以该字段为查询条件时,查询速度提高明显
PS:
1. mysql先去索引表里根据b+树的搜索原理很快搜索到id等于333333333的记录不存在,IO大大下降,于是速度明显提高
2. 咱们能够去mysql的data目录下找到该表,能够看到占用的硬盘空间多了
3. 须要注意,以下图
总结
#1. 必定是为搜索条件的字段建立索引,好比select * from s1 where id = 333;就须要为id加上索引
#2. 在表中已经有大量数据的状况下,建索引会很慢,且占用硬盘空间,建完后查询速度加快
好比create index idx on s1(id);会扫描表中全部的数据,而后以id为数据项,建立索引结构,存放于硬盘的表中。
建完之后,再查询就会很快了。#3. 须要注意的是:innodb表的索引会存放于s1.ibd文件中,而myisam表的索引则会有单独的索引文件table1.MYI
MySAM索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。
而在innodb中,表数据文件自己就是按照B+Tree(BTree即Balance True)组织的一个索引结构,这棵树的叶节点data域保存了完整的数据记录。
这个索引的key是数据表的主键,所以innodb表数据文件自己就是主索引。
由于inndob的数据文件要按照主键汇集,因此innodb要求表必需要有主键(Myisam能够没有),
若是没有显式定义,则mysql系统会自动选择一个能够惟一标识数据记录的列做为主键,
若是不存在这种列,则mysql会自动为innodb表生成一个隐含字段做为主键,这字段的长度为6个字节,类型为长整型.
正确使用索引
索引未命中
并非说咱们建立了索引就必定会加快查询速度,若想利用索引达到预想的提升查询速度的效果,咱们在添加索引时,必须遵循如下问题
1 、范围问题,或者说条件不明确,条件中出现这些符号或关键字:>、>=、<、<=、!= 、between...and...、like、
大于号、小于号
不等于!=
between ...and...
like
2.尽可能选择区分度高的列做为索引,区分度的公式是count(distinct col)/count(*),表示字段不重复的比例,比例越大咱们扫描的记录数越少,惟一键的区分度是1,而一些状态、性别字段可能在大数据面前区分度就是0,那可能有人会问,这个比例有什么经验值吗?使用场景不一样,这个值也很难肯定,通常须要join的字段咱们都要求是0.1以上,即平均1条扫描10条记录
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
#先把表中的索引都删除,让咱们专心研究区分度的问题
mysql>
desc
s1;
+
--------+-------------+------+-----+---------+-------+
| Field | Type |
Null
|
Key
|
Default
| Extra |
+
--------+-------------+------+-----+---------+-------+
| id |
int
(11) | YES | MUL |
NULL
| |
|
name
|
varchar
(20) | YES | |
NULL
| |
| gender |
char
(5) | YES | |
NULL
| |
| email |
varchar
(50) | YES | MUL |
NULL
| |
+
--------+-------------+------+-----+---------+-------+
rows
in
set
(0.00 sec)
mysql>
drop
index
a
on
s1;
Query OK, 0
rows
affected (0.20 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql>
drop
index
d
on
s1;
Query OK, 0
rows
affected (0.18 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql>
desc
s1;
+
--------+-------------+------+-----+---------+-------+
| Field | Type |
Null
|
Key
|
Default
| Extra |
+
--------+-------------+------+-----+---------+-------+
| id |
int
(11) | YES | |
NULL
| |
|
name
|
varchar
(20) | YES | |
NULL
| |
| gender |
char
(5) | YES | |
NULL
| |
| email |
varchar
(50) | YES | |
NULL
| |
+
--------+-------------+------+-----+---------+-------+
rows
in
set
(0.00 sec)
|
先把表中的索引都删除,让咱们专心研究区分度的问题
咱们编写存储过程为表s1批量添加记录,name字段的值均为duoduo,也就是说name这个字段的区分度很低(gender字段也是同样的,咱们稍后再搭理它)
回忆b+树的结构,查询的速度与树的高度成反比,要想将树的高低控制的很低,须要保证:在某一层内数据项均是按照从左到右,从小到大的顺序依次排开,即左1<左2<左3<...
而对于区分度低的字段,没法找到大小关系,由于值都是相等的,毫无疑问,还想要用b+树存放这些等值的数据,只能增长树的高度,字段的区分度越低,则树的高度越高。极端的状况,索引字段的值都同样,那么b+树几乎成了一根棍。本例中就是这种极端的状况,name字段全部的值均为'duoduo'
#如今咱们得出一个结论:为区分度低的字段创建索引,索引树的高度会很高,然而这具体会带来什么影响呢???
#1:若是条件是name='xxxx',那么确定是能够第一时间判断出'xxxx'是不在索引树中的(由于树中全部的值均为'duoduo'),因此查询速度很快
#2:若是条件正好是name='duoduo',查询时,咱们永远没法从树的某个位置获得一个明确的范围,只能往下找,往下找,往下找。。。这与全表扫描的IO次数没有多大区别,因此速度很慢
分析
三、 =和in能够乱序,好比a = 1 and b = 2 and c = 3 创建(a,b,c)索引能够任意顺序,mysql的查询优化器会帮你优化成索引能够识别的形式
四、 索引列不能参与计算,保持列“干净”,好比from_unixtime(create_time) = '2014-05-29'就不能使用到索引,缘由很简单,b+树中存的都是数据表中的字段值,但进行检索时,须要把全部元素都应用函数才能比较,显然成本太大。因此语句应该写成create_time = unix_timestamp('2014-05-29')
五、 and/or
#一、and与or的逻辑
条件1 and 条件2:全部条件都成立才算成立,但凡要有一个条件不成立则最终结果不成立
条件1 or 条件2:只要有一个条件成立则最终结果就成立#二、and的工做原理
条件:
a = 10 and b = 'xxx' and c > 3 and d =4
索引:
制做联合索引(d,a,b,c)
工做原理:
对于连续多个and:mysql会按照联合索引,从左到右的顺序找一个区分度高的索引字段(这样即可以快速锁定很小的范围),加速查询,即按照d—>a->b->c的顺序#三、or的工做原理
条件:
a = 10 or b = 'xxx' or c > 3 or d =4
索引:
制做联合索引(d,a,b,c)
工做原理:
对于连续多个or:mysql会按照条件的顺序,从左到右依次判断,即a->b->c->d
在左边条件成立可是索引字段的区分度低的状况下(name,加速查询)
6最左前缀匹配原则,很是重要的原则,对于组合索引mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就中止匹配(指的是范围大了,有索引速度也慢),好比a = 1 and b = 2 and c > 3 and d = 4 若是创建(a,b,c,d)顺序的索引,d是用不到索引的,若是创建(a,b,d,c)的索引则均可以用到,a,b,d的顺序能够任意调整。
七、 其余状况
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
- 使用函数
select
*
from
tb1
where
reverse(email) =
'duoduo'
;
- 类型不一致
若是列是字符串类型,传入条件是必须用引号引发来,否则...
select
*
from
tb1
where
email = 999;
#排序条件为索引,则
select
字段必须也是索引字段,不然没法命中
-
order
by
select
name
from
s1
order
by
email
desc
;
当根据索引排序时候,
select
查询的字段若是不是索引,则速度仍然很慢
select
email
from
s1
order
by
email
desc
;
特别的:若是对主键排序,则仍是速度很快:
select
*
from
tb1
order
by
nid
desc
;
- 组合索引最左前缀
若是组合索引为:(
name
,email)
name
and
email
-- 命中索引
name
-- 命中索引
email
-- 未命中索引
-
count
(1)或
count
(列)代替
count
(*)在mysql中没有差异了
-
create
index
xxxx
on
tb(title(19)) #text类型,必须制定长度
|
其余注意事项
- 避免使用select *
- count(1)或count(列) 代替 count(*)
- 建立表时尽可能时 char 代替 varchar
- 表的字段顺序固定长度的字段优先
- 组合索引代替多个单列索引(常用多个条件查询时)
- 尽可能使用短索引
- 使用链接(JOIN)来代替子查询(Sub-Queries)
- 连表时注意条件类型需一致
- 索引散列值(重复少)不适合建索引,例:性别不适合
联合索引与覆盖索引
联合索引
联合索引时指对表上的多个列合起来作一个索引。联合索引的建立方法与单个索引的建立方法同样,不一样之处在仅在于有多个索引列,以下
1
2
3
4
5
6
7
|
mysql>
create
table
t(
-> a
int
,
-> b
int
,
->
primary
key
(a),
->
key
idx_a_b(a,b)
-> );
Query OK, 0
rows
affected (0.11 sec)
|
那么什么时候须要使用联合索引呢?在讨论这个问题以前,先来看一下联合索引内部的结果。从本质上来讲,联合索引就是一棵B+树,不一样的是联合索引的键值得数量不是1,而是>=2。接着来讨论两个整型列组成的联合索引,假定两个键值得名称分别为a、b如图
能够看到这与咱们以前看到的单个键的B+树并无什么不一样,键值都是排序的,经过叶子结点能够逻辑上顺序地读出全部数据,就上面的例子来讲,即(1,1),(1,2),(2,1),(2,4),(3,1),(3,2),数据按(a,b)的顺序进行了存放。
所以,对于查询select * from table where a=xxx and b=xxx, 显然是可使用(a,b) 这个联合索引的,对于单个列a的查询select * from table where a=xxx,也是可使用(a,b)这个索引的。
但对于b列的查询select * from table where b=xxx,则不可使用(a,b) 索引,其实你不难发现缘由,叶子节点上b的值为一、二、一、四、一、2显然不是排序的,所以对于b列的查询使用不到(a,b) 索引
联合索引的第二个好处是在第一个键相同的状况下,已经对第二个键进行了排序处理,例如在不少状况下应用程序都须要查询某个用户的购物状况,并按照时间进行排序,最后取出最近三次的购买记录,这时使用联合索引能够帮咱们避免多一次的排序操做,由于索引自己在叶子节点已经排序了,以下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
|
#===========准备表==============
create
table
buy_log(
userid
int
unsigned
not
null
,
buy_date
date
);
insert
into
buy_log
values
(1,
'2009-01-01'
),
(2,
'2009-01-01'
),
(3,
'2009-01-01'
),
(1,
'2009-02-01'
),
(3,
'2009-02-01'
),
(1,
'2009-03-01'
),
(1,
'2009-04-01'
);
alter
table
buy_log
add
key
(userid);
alter
table
buy_log
add
key
(userid,buy_date);
#===========验证==============
mysql> show
create
table
buy_log;
| buy_log |
CREATE
TABLE
`buy_log` (
`userid`
int
(10) unsigned
NOT
NULL
,
`buy_date`
date
DEFAULT
NULL
,
KEY
`userid` (`userid`),
KEY
`userid_2` (`userid`,`buy_date`)
) ENGINE=InnoDB
DEFAULT
CHARSET=utf8 |
#能够看到possible_keys在这里有两个索引能够用,分别是单个索引userid与联合索引userid_2,可是优化器最终选择了使用的
key
是userid由于该索引的叶子节点包含单个键值,因此理论上一个页能存放的记录应该更多
mysql> explain
select
*
from
buy_log
where
userid=2;
+
----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
| id | select_type |
table
| type | possible_keys |
key
| key_len | ref |
rows
| Extra |
+
----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
| 1 | SIMPLE | buy_log | ref | userid,userid_2 | userid | 4 | const | 1 | |
+
----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
row
in
set
(0.00 sec)
#接着假定要取出userid为1的最近3次的购买记录,用的就是联合索引userid_2了,由于在这个索引中,在userid=1的状况下,buy_date都已经排序好了
mysql> explain
select
*
from
buy_log
where
userid=1
order
by
buy_date
desc
limit 3;
+
----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
| id | select_type |
table
| type | possible_keys |
key
| key_len | ref |
rows
| Extra |
+
----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
| 1 | SIMPLE | buy_log | ref | userid,userid_2 | userid_2 | 4 | const | 4 | Using
where
; Using
index
|
+
----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
row
in
set
(0.00 sec)
#ps:若是extra的排序显示是Using filesort,则意味着在查出数据后须要二次排序
#对于联合索引(a,b),下述语句能够直接使用该索引,无需二次排序
select
...
from
table
where
a=xxx
order
by
b;
#而后对于联合索引(a,b,c)来首,下列语句一样能够直接经过索引获得结果
select
...
from
table
where
a=xxx
order
by
b;
select
...
from
table
where
a=xxx
and
b=xxx
order
by
c;
#可是对于联合索引(a,b,c),下列语句不能经过索引直接获得结果,还须要本身执行一次filesort操做,由于索引(a,c)并未排序
select
...
from
table
where
a=xxx
order
by
c;
|
覆盖索引
InnoDB存储引擎支持覆盖索引(covering index,或称索引覆盖),即从辅助索引中就能够获得查询记录,而不须要查询汇集索引中的记录。
使用覆盖索引的一个好处是:辅助索引不包含整行记录的全部信息,故其大小要远小于汇集索引,所以能够减小大量的IO操做
注意:覆盖索引技术最先是在InnoDB Plugin中完成并实现,这意味着对于InnoDB版本小于1.0的,或者MySQL数据库版本为5.0如下的,InnoDB存储引擎不支持覆盖索引特性
对于InnoDB存储引擎的辅助索引而言,因为其包含了主键信息,所以其叶子节点存放的数据为(primary key1,priamey key2,...,key1,key2,...)。例如
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
|
select
age
from
s1
where
id=123
and
name
=
'duoduo'
; #id字段有索引,可是
name
字段没有索引,该sql命中了索引,但未覆盖,须要去汇集索引中再查找详细信息。
最牛逼的状况是,索引字段覆盖了全部,那全程经过索引来加速查询以及获取结果就ok了
mysql>
desc
s1;
+
--------+-------------+------+-----+---------+-------+
| Field | Type |
Null
|
Key
|
Default
| Extra |
+
--------+-------------+------+-----+---------+-------+
| id |
int
(11) |
NO
| |
NULL
| |
|
name
|
varchar
(20) | YES | |
NULL
| |
| gender |
char
(6) | YES | |
NULL
| |
| email |
varchar
(50) | YES | |
NULL
| |
+
--------+-------------+------+-----+---------+-------+
rows
in
set
(0.21 sec)
mysql> explain
select
name
from
s1
where
id=1000; #没有任何索引
+
----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
| id | select_type |
table
| partitions | type | possible_keys |
key
| key_len | ref |
rows
| filtered | Extra |
+
----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
| 1 | SIMPLE | s1 |
NULL
|
ALL
|
NULL
|
NULL
|
NULL
|
NULL
| 2688336 | 10.00 | Using
where
|
+
----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
row
in
set
, 1 warning (0.00 sec)
mysql>
create
index
idx_id
on
s1(id); #建立索引
Query OK, 0
rows
affected (4.16 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> explain
select
name
from
s1
where
id=1000; #命中辅助索引,可是未覆盖索引,还须要从汇集索引中查找
name
+
----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
| id | select_type |
table
| partitions | type | possible_keys |
key
| key_len | ref |
rows
| filtered | Extra |
+
----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
| 1 | SIMPLE | s1 |
NULL
| ref | idx_id | idx_id | 4 | const | 1 | 100.00 |
NULL
|
+
----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
row
in
set
, 1 warning (0.08 sec)
mysql> explain
select
id
from
s1
where
id=1000; #在辅助索引中就找到了所有信息,Using
index
表明覆盖索引
+
----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
| id | select_type |
table
| partitions | type | possible_keys |
key
| key_len | ref |
rows
| filtered | Extra |
+
----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
| 1 | SIMPLE | s1 |
NULL
| ref | idx_id | idx_id | 4 | const | 1 | 100.00 | Using
index
|
+
----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
row
in
set
, 1 warning (0.03 sec)
|
覆盖索引的另一个好处是对某些统计问题而言的。基于上一小结建立的表buy_log,查询计划以下
1
2
3
4
5
6
7
|
mysql> explain
select
count
(*)
from
buy_log;
+
----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
| id | select_type |
table
| type | possible_keys |
key
| key_len | ref |
rows
| Extra |
+
----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
| 1 | SIMPLE | buy_log |
index
|
NULL
| userid | 4 |
NULL
| 7 | Using
index
|
+
----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
row
in
set
(0.00 sec)
|
innodb存储引擎并不会选择经过查询汇集索引来进行统计。因为buy_log表有辅助索引,而辅助索引远小于汇集索引,选择辅助索引能够减小IO操做,故优化器的选择如上key为userid辅助索引
对于(a,b)形式的联合索引,通常是不能够选择b中所谓的查询条件。但若是是统计操做,而且是覆盖索引,则优化器仍是会选择使用该索引,以下
1
2
3
4
5
6
7
8
|
#联合索引userid_2(userid,buy_date),通常状况,咱们按照buy_date是没法使用该索引的,但特殊状况下:查询语句是统计操做,且是覆盖索引,则按照buy_date当作查询条件时,也可使用该联合索引
mysql> explain
select
count
(*)
from
buy_log
where
buy_date >=
'2011-01-01'
and
buy_date <
'2011-02-01'
;
+
----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
| id | select_type |
table
| type | possible_keys |
key
| key_len | ref |
rows
| Extra |
+
----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
| 1 | SIMPLE | buy_log |
index
|
NULL
| userid_2 | 8 |
NULL
| 7 | Using
where
; Using
index
|
+
----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
row
in
set
(0.00 sec)
|
查询优化神器-explain
关于explain命令相信你们并不陌生,具体用法和字段含义能够参考官网explain-output,这里须要强调rows是核心指标,绝大部分rows小的语句执行必定很快(有例外,下面会讲到)。因此优化语句基本上都是在优化rows。
执行计划:让mysql预估执行操做(通常正确)
all < index < range < index_merge < ref_or_null < ref < eq_ref < system/const
id,email
慢:
select * from userinfo3 where name='alex'
explain select * from userinfo3 where name='alex'
type: ALL(全表扫描)
select * from userinfo3 limit 1;
快:
select * from userinfo3 where email='alex'
type: const(走索引)
参考文中://www.jb51.net/article/140759.htm
慢查询优化的基本步骤
0.先运行看看是否真的很慢,注意设置SQL_NO_CACHE
1.where条件单表查,锁定最小返回记录表。这句话的意思是把查询语句的where都应用到表中返回的记录数最小的表开始查起,单表每一个字段分别查询,看哪一个字段的区分度最高
2.explain查看执行计划,是否与1预期一致(从锁定记录较少的表开始查询)
3.order by limit 形式的sql语句让排序的表优先查
4.了解业务方使用场景
5.加索引时参照建索引的几大原则
6.观察结果,不符合预期继续从0分析
慢日志管理
慢日志
- 执行时间 > 10
- 未命中索引
- 日志文件路径
配置:
- 内存
show variables like '%query%';
show variables like '%queries%';
set global 变量名 = 值
- 配置文件
mysqld --defaults-file='E:\wupeiqi\mysql-5.7.16-winx64\mysql-5.7.16-winx64\my-default.ini'
my.conf内容:
slow_query_log = ON
slow_query_log_file = D:/....
注意:修改配置文件以后,须要重启服务
MySQL日志管理
========================================================
错误日志: 记录 MySQL 服务器启动、关闭及运行错误等信息
二进制日志: 又称binlog日志,以二进制文件的方式记录数据库中除 SELECT 之外的操做
查询日志: 记录查询的信息
慢查询日志: 记录执行时间超过指定时间的操做
中继日志: 备库将主库的二进制日志复制到本身的中继日志中,从而在本地进行重放
通用日志: 审计哪一个帐号、在哪一个时段、作了哪些事件
事务日志或称redo日志: 记录Innodb事务相关的如事务执行时间、检查点等
========================================================
bin-log
启用
1
2
3
4
|
# vim /etc/my.cnf
[mysqld]
log-bin[=dir\[filename]]
# service mysqld restart
|
暂停
1
2
3
|
//仅当前会话
SET
SQL_LOG_BIN=0;
SET
SQL_LOG_BIN=1;
|
查看
查看所有:
1
2
3
4
5
|
# mysqlbinlog mysql.000002
按时间:
# mysqlbinlog mysql.000002
--start-datetime="2012-12-05 10:02:56"
# mysqlbinlog mysql.000002
--stop-datetime="2012-12-05 11:02:54"
# mysqlbinlog mysql.000002
--start-datetime="2012-12-05 10:02:56" --stop-datetime="2012-12-05 11:02:54"
|
按字节数:
1
2
3
|
# mysqlbinlog mysql.000002
--start-position=260
# mysqlbinlog mysql.000002
--stop-position=260
# mysqlbinlog mysql.000002
--start-position=260 --stop-position=930
|
截断bin-log(产生新的bin-log文件
a. 重启mysql服务器
b. # mysql -uroot -p123 -e 'flush logs'
删除bin-log文件
1
|
# mysql -uroot -p123 -e
'reset master'
|
查询日志
启用通用查询日志
1
2
3
4
|
# vim /etc/my.cnf
[mysqld]
log[=dir\[filename]]
# service mysqld restart
|
慢查询日志
启用慢查询日志
1
2
3
4
5
|
# vim /etc/my.cnf
[mysqld]
log-slow-queries[=dir\[filename]]
long_query_time=n
# service mysqld restart
|
MySQL 5.6:
1
2
3
|
slow-query-log=1
slow-query-log-file=slow.log
long_query_time=3
|
查看慢查询日志
测试:
1
2
|
BENCHMARK(
count
,expr)
SELECT
BENCHMARK(50000000,2*3);
|