深刻浅出Mysql索引的那些事儿

时间 2019-11-06

标签深刻 mysql 索引那些事儿栏目 MySQL 繁體版

原文原文链接

一.索引的做用

通常的应用系统，读写比例在10:1左右，并且插入操做和通常的更新操做不多出现性能问题，遇到最多的，也是最容易出问题的，仍是一些复杂的查询操做，因此查询语句的优化显然是重中之重。html

在数据量和访问量不大的状况下，mysql访问是很是快的，是否加索引对访问影响不大。可是当数据量和访问量剧增的时候，就会发现mysql变慢，甚至down掉，这就必需要考虑优化sql了，给数据库创建正确合理的索引，是mysql优化的一个重要手段。 mysql

索引的目的在于提升查询效率，能够类比字典，若是要查“mysql”这个单词，咱们确定须要定位到m字母，而后从上往下找到y字母，再找到剩下的sql。若是没有索引，那么你可能须要把全部单词看一遍才能找到你想要的。除了词典，生活中随处可见索引的例子，如火车站的车次表、图书的目录等。它们的原理都是同样的，经过不断的缩小想要得到数据的范围来筛选出最终想要的结果，同时把随机的事件变成顺序的事件，也就是咱们老是经过同一种查找方式来锁定数据。正则表达式

在建立索引时，须要考虑哪些列会用于 SQL 查询，而后为这些列建立一个或多个索引。事实上，索引也是一种表，保存着主键或索引字段，以及一个能将每一个记录指向实际表的指针。数据库用户是看不到索引的，它们只是用来加速查询的。数据库搜索引擎使用索引来快速定位记录。sql

INSERT 与 UPDATE 语句在拥有索引的表中执行会花费更多的时间，而SELECT 语句却会执行得更快。这是由于，在进行插入或更新时，数据库也须要插入或更新索引值。数据库

二.索引的建立、删除

索引的类型：mysql优化

UNIQUE(惟一索引)：不能够出现相同的值，能够有NULL值
INDEX(普通索引)：容许出现相同的索引内容
PROMARY KEY(主键索引)：不容许出现相同的值
fulltext index(全文索引)：能够针对值中的某个单词，但效率确实不敢恭维
组合索引：实质上是将多个字段建到一个索引里，列值的组合必须惟一

舒适提示：根据《阿里巴巴Java开发手册》里的mysql规约，惟一索引建议命名为 uk_字段名，普通索引名则为 idx_字段名。（uk_即unique key; idx_即index的简称）。

(1)使用ALTER TABLE语句建立索性

应用于表建立完毕以后再添加。函数

ALTER TABLE 表名 ADD 索引类型 （unique,primary key,fulltext,index）[索引名]（字段名）

//普通索引
alter table table_name add index index_name (column_list) ;
//惟一索引
alter table table_name add unique (column_list) ;
//主键索引
alter table table_name add primary key (column_list) ;

ALTER TABLE可用于建立普通索引、UNIQUE索引和PRIMARY KEY索引3种索引格式，table_name是要增长索引的表名，column_list指出对哪些列进行索引，多列时各列之间用逗号分隔。索引名index_name可选，缺省时，MySQL将根据第一个索引列赋一个名称。另外，ALTER TABLE容许在单个语句中更改多个表，所以能够同时建立多个索引。性能

(2)使用CREATE INDEX语句对表增长索引

CREATE INDEX可用于对表增长普通索引或UNIQUE索引，可用于建表时建立索引。大数据

CREATE INDEX index_name ON table_name(username(length));

若是是CHAR，VARCHAR类型，length能够小于字段实际长度；若是是BLOB和TEXT类型，必须指定 length。优化

//只能添加这两种索引;
CREATE INDEX index_name ON table_name (column_list)
CREATE UNIQUE INDEX index_name ON table_name (column_list)

table_name、index_name和column_list具备与ALTER TABLE语句中相同的含义，索引名不可选。另外，不能用CREATE INDEX语句建立PRIMARY KEY索引。

(3)删除索引

删除索引可使用ALTER TABLE或DROP INDEX语句来实现。DROP INDEX能够在ALTER TABLE内部做为一条语句处理，其格式以下：

drop index index_name on table_name ;

alter table table_name drop index index_name ;

alter table table_name drop primary key ;

其中，在前面的两条语句中，都删除了table_name中的索引index_name。而在最后一条语句中，只在删除PRIMARY KEY索引中使用，由于一个表只可能有一个PRIMARY KEY索引，所以不须要指定索引名。若是没有建立PRIMARY KEY索引，但表具备一个或多个UNIQUE索引，则MySQL将删除第一个UNIQUE索引。

若是从表中删除某列，则索引会受影响。对于多列组合的索引，若是删除其中的某列，则该列也会从索引中删除。若是删除组成索引的全部列，则整个索引将被删除。

(4) 组合索引与前缀索引

在这里要指出，组合索引和前缀索引是对创建索引技巧的一种称呼，并非索引的类型。为了更好的表述清楚，创建一个demo表以下。

create table USER_DEMO
(
   ID                   int not null auto_increment comment '主键',
   LOGIN_NAME           varchar(100) not null comment '登陆名',
   PASSWORD             varchar(100) not null comment '密码',
   CITY                 varchar(30) not null comment '城市',
   AGE                  int not null comment '年龄',
   SEX                  int not null comment '性别(0:女 1：男)',
   primary key (ID)
);

为了进一步榨取mysql的效率，就能够考虑创建组合索引，即将LOGIN_NAME,CITY,AGE建到一个索引里：

ALTER TABLE USER_DEMO ADD INDEX name_city_age (LOGIN_NAME(16),CITY,AGE);

建表时，LOGIN_NAME长度为100，这里用16，是由于通常状况下名字的长度不会超过16，这样会加快索引查询速度，还会减小索引文件的大小，提升INSERT，UPDATE的更新速度。

若是分别给LOGIN_NAME,CITY,AGE创建单列索引，让该表有3个单列索引，查询时和组合索引的效率是大不同的，甚至远远低于咱们的组合索引。虽然此时有三个索引，但mysql只能用到其中的那个它认为彷佛是最有效率的单列索引，另外两个是用不到的，也就是说仍是一个全表扫描的过程。

创建这样的组合索引，就至关于分别创建以下三种组合索引：

LOGIN_NAME,CITY,AGE
LOGIN_NAME,CITY
LOGIN_NAME

为何没有CITY,AGE等这样的组合索引呢？这是由于mysql组合索引“最左前缀"的结果。简单的理解就是只从最左边的开始组合，并非只要包含这三列的查询都会用到该组合索引。也就是说name_city_age(LOGIN_NAME(16),CITY,AGE)从左到右进行索引，若是没有左前索引，mysql不会执行索引查询。

若是索引列长度过长,这种列索引时将会产生很大的索引文件,不便于操做,可使用前缀索引方式进行索引，前缀索引应该控制在一个合适的点,控制在0.31黄金值便可(大于这个值就能够建立)。

SELECT COUNT(DISTINCT(LEFT(`title`,10)))/COUNT(*) FROM Arctic; -- 这个值大于0.31就能够建立前缀索引,Distinct去重复

ALTER TABLE `user` ADD INDEX `uname`(title(10)); -- 增长前缀索引SQL,将人名的索引创建在10,这样能够减小索引文件大小,加快索引查询速度

三.索引的使用及注意事项

EXPLAIN能够帮助开发人员分析SQL问题,explain显示了mysql如何使用索引来处理select语句以及链接表,能够帮助选择更好的索引和写出更优化的查询语句。

使用方法,在select语句前加上Explain就能够了：

Explain select * from user where id=1;

尽可能避免这些不走索引的sql：

SELECT name,phone FROM `user` WHERE `age`+10=30; -- 不会使用索引,由于全部索引列参与了计算

SELECT name,phone  FROM `user` WHERE LEFT(`date`,4) <1990; -- 不会使用索引,由于使用了函数运算,原理与上面相同

SELECT * FROM `user` WHERE `name` LIKE'后盾%' -- 走索引

SELECT * FROM `user` WHERE `name` LIKE "%后盾%" -- 不走索引

-- 正则表达式不使用索引,这应该很好理解,因此为何在SQL中很难看到regexp关键字的缘由

-- 字符串与数字比较不使用索引;
CREATE TABLE `a` (`a` char(10));
EXPLAIN SELECT * FROM `a` WHERE `a`="1" -- 走索引
EXPLAIN SELECT * FROM `a` WHERE `a`=1 -- 不走索引

select * from dept where dname='xxx' or loc='xx' or deptno=45 --若是条件中有or,即便其中有条件带索引也不会使用。换言之,就是要求使用的全部字段,都必须创建索引, 咱们建议你们尽可能避免使用or 关键字

-- 若是mysql估计使用全表扫描要比使用索引快,则不使用索引

索引虽然好处不少，但过多的使用索引可能带来相反的问题，索引也是有缺点的：

虽然索引大大提升了查询速度，同时却会下降更新表的速度，如对表进行INSERT,UPDATE和DELETE。由于更新表时，mysql不只要保存数据，还要保存一下索引文件
创建索引会占用磁盘空间的索引文件。通常状况这个问题不太严重，但若是你在要给大表上建了多种组合索引，索引文件会膨胀很宽

索引只是提升效率的一个方式，若是mysql有大数据量的表，就要花时间研究创建最优的索引，或优化查询语句。

使用索引时，有一些技巧

索引不会包含有NULL的列
只要列中包含有NULL值，都将不会被包含在索引中，复合索引中只要有一列含有NULL值，那么这一列对于此符合索引就是无效的。
使用短索引
对串列进行索引，若是能够就应该指定一个前缀长度。例如，若是有一个char（255）的列，若是在前10个或20个字符内，多数值是惟一的，那么就不要对整个列进行索引。短索引不只能够提升查询速度并且能够节省磁盘空间和I/O操做。
索引列排序
mysql一张表查询只能用到一个索引。所以若是where子句中已经使用了索引的话，那么order by中的列是不会使用索引的。所以数据库默认排序能够符合要求的状况下不要使用排序操做，尽可能不要包含多个列的排序，若是须要最好给这些列建复合索引。这一点是不少程序猿容易忽略的，如where子句的字段建了索引，排序的字段建了索引，可是分开建的，觉得会走索引，其实这样的话排序的字段不会使用索引的，除非建复合索引，切记。
like语句操做
通常状况下不鼓励使用like操做，若是非使用不可，注意正确的使用方式。like '%aaa%'不会使用索引，而like 'aaa%'可使用索引。
不要在列上进行运算
不使用NOT IN 、<>、！=操做，但<,<=，=，>,>=,BETWEEN,IN是能够用到索引的。
索引要创建在常常进行select操做的字段上。
这是由于，若是这些列不多用到，那么有无索引并不能明显改变查询速度。相反，因为增长了索引，反而下降了系统的维护速度和增大了空间需求。
索引要创建在值比较惟一的字段上。
对于那些定义为text、image和bit数据类型的列不该该增长索引。由于这些列的数据量要么至关大，要么取值不多。
在where和join中出现的列须要创建索引。
where的查询条件里有不等号(where column != ...),mysql将没法使用索引。
若是where字句的查询条件里使用了函数(如：where DAY(column)=...),mysql将没法使用索引。
在join操做中(须要从多个数据表提取数据时)，mysql只有在主键和外键的数据类型相同时才能使用索引，不然即便创建了索引也不会使用。这一点很容易忽略，切记，切记，切记！
在进行联表查询时，创建关联的表的字段类型最好同样且长度一致，这样能更好的发挥索引的做用。
组合索引时切记此条约束：组合索引中有多个字段，其中一个字段是有范围判断，则需将此字段在最后面。如
```
ALTER TABLE USER_DEMO ADD INDEX name_age (NAME,AGE);
```
由于age会有范围判断，则建组合索引时将AGE字段放在后面。
字符集字段比较，UTF8与UTF-BIN联合查询是不能走索引的。

如某张表的order_no字段类型为varchar(50),另外一张表的order_no字段类型为varchar(50) COLLATE utf8_BIN。则此时联合查询时不能走索引的，切记。
即两张表的字段类型以下：
```
`order_no` varchar(50) COLLATE utf8_bin NOT NULL DEFAULT '' COMMENT '订单号';
 `order_no` varchar(50) NOT NULL DEFAULT '' COMMENT '订单号';
```
如下几种状况不适合建索引：
- 表记录太少
- 常常插入、删除、修改的表
- 数据重复且分布平均的表字段。如一个表有10万行记录，其中字段column1只有A和B两种值，且每一个值的分布几率大约为50%，那么对这种表column1字段建索引通常不会提升数据库的查询速度。
给表建立主键，对于没有主键的表，在查询和索引定义上有必定的影响。
避免表字段为null，建议设置默认值（如int类型设置默认值为0），这样在索引查询上，效率会高不少。
关于order by的索引问题重点说下:
- 无条件查询若是只有order by create_time，即使create_time上有索引，也不会使用到。
  由于优化器认为走二级索引再去回表成本比全表扫描排序更高，因此选择走权标扫描。
- 无条件查询可是order by create_time limit m，若是m值较小，是能够走索引的。
  由于优化器认为根据索引有序性去回表查数据，而后获得m条数据，就能够终止循环，
  那么成本比全表扫描小，则选择走二级索引。
  即使没有二级索引，mysql针对order by limit也作了优化，采用堆排序。
- order by排序分为file sort和index，index的效率更高。但如下状况不会使用index排序：
  - 检查的行数过多，而且没有使用覆盖索引
  - 使用了多个索引，mysql一次只会采用一个索引
  - where和order by使用了不一样的索引，与上一条相似
  - order by中加入了非索引列，且非索引列不在where中
  - 当使用left join，使用右边的表字段排序

参考：
http://dev.mysql.com/doc/refman/5.5/en/explain-output.html