Mysql索引

时间 2019-11-16

标签 mysql 索引栏目 MySQL 繁體版

原文原文链接

Mysql索引

A、索引的基本操做mysql

1、概念算法

1）、查看索引 show index from 数据库表名 sql

2）、alter table 数据库表 add index 索引名称(数据库表字段名称)数据库

2、索引类型：性能优化

1）、PRIMARY KEY（主键索引）数据结构

ALTER TABLE table_name ADD PRIMARY KEY ( column )函数

2）、UNIQUE(惟一索引) 性能

ALTER TABLE table_name ADD UNIQUE (column)大数据

3）、INDEX(普通索引) 优化

ALTER TABLE table_name ADD INDEX index_name ( column )

4）、FULLTEXT(全文索引)

ALTER TABLE table_name ADD FULLTEXT ( column )

5）、多列索引

ALTER TABLE table_name ADD INDEX index_name ( column1, column2, column3 )

3、操做

1).普通索引。

这是最基本的索引，它没有任何限制。它有如下几种建立方式：

（1）建立索引：

CREATE INDEX indexName ON tableName(tableColumns(length));

若是是CHAR,VARCHAR类型，length能够小于字段实际长度;若是是BLOB 和 TEXT 类型，必须指定length，下同。

（2）修改表结构：

ALTER tableName ADD INDEX [indexName] ON (tableColumns(length))

（3）建立表的时候直接指定：

CREATE TABLE tableName ( […], INDEX [indexName] (tableColumns(length)) ;

2).惟一索引。

它与前面的”普通索引”相似，不一样的就是：索引列的值必须惟一，但容许有空值。若是是组合索引，则列值的组合必须惟一。它有如下几种建立方式：

（1）建立索引：

CREATE UNIQUE INDEX indexName ON tableName(tableColumns(length))

（2）修改表结构：

ALTER tableName ADD UNIQUE [indexName] ON (tableColumns(length))

（3）建立表的时候直接指定：

CREATE TABLE tableName ( […], UNIQUE [indexName] (tableColumns(length));

3).主键索引

它是一种特殊的惟一索引，不容许有空值。通常是在建表的时候同时建立主键索引：

CREATE TABLE testIndex(i_testID INT NOT NULL AUTO_INCREMENT,vc_Name VARCHAR(16) NOT NULL,PRIMARY KEY(i_testID)); 固然也能够用ALTER命令。

B、索引的原理及案例

主键是逻辑键，索引是物理键，意思就是主键不实际存在，而索引实际存在在数据库中

索引会真正的产生一个文件的，数据会真正的产生一个文件的

redo log 记录的是物理日志"某个数据页上作了什么修改" 循环使用

bin log 记录的是逻辑日志语句的原始逻辑"ID=1 ,2 " 追加使用

而主键不会产生一个文件的主键的搜索靠索引的树的搜索

数据的概念

数据有数据页的概念

mysql也有内存的概念 ,查询的时候先看所在的数据页是否在内存中 ,若是存在查询直接返回,若是不存在则去磁盘加载到内存再返回

因此更新操做

若是内存不存在先去磁盘加载到内存而后修改后再将值放入内存 ,而且再更新到redo log 日志表中

索引的原理

1.B+树索引二叉搜索树这棵树是平衡二叉树 N叉树为了减小树高

若是语句是 select * from T where ID=500，即主键查询方式，则只须要搜索 ID 这棵 B+树

若是语句是 select * from T where k=5，即普通索引查询方式，则须要先搜索 k 索引树，ID 的值为 500，再到 ID 索引树搜索一次。这个过程称回表

也就是说，基于非主键索引的查询须要多扫描一棵索引树,所以，咱们在应用中应该尽可能使用主键查询。

2. 一个数据页满了，按照B+Tree算法，新增长一个数据页，叫作页分裂，会致使性能降低。空间利用率下降大概50%。

当相邻的两个数据页利用率很低的时候会作数据页合并，合并的过程是分裂过程的逆过程。

3.从性能和存储空间方面考量，自增主键每每是更合理的选择。

4.显然，主键长度越小，普通索引的叶子节点就越小，普通索引占用的空间也就越小。

所以自增主键比较合适

覆盖索引

create table T ( ID int primary key,

k int NOT NULL DEFAULT 0,

s varchar(16) NOT NULL DEFAULT '',

index k(k))

engine=InnoDB;

insert into T values(100,1, 'aa'),(200,2,'bb'),(300,3,'cc'),(500,5,'ee'),(600,6,'ff'),(700,7,'gg');

select * from T where k between 3 and 5 这种查询K的索引搜索到主键而后搜索主键的索引拿到具体的信息有回表

覆盖索引

select ID from T where k between 3 and 5 这时只须要查 ID 的值，而 ID 的值已经在 k 索引树上了，所以能够直接提供查询结果，不须要回表因为覆盖索引能够减小树的搜索次数，显著提高查询性能，因此使用覆盖索引是一个经常使用的性能优化手段。

最左前缀原则

索引(a,b) 查询条件b是没法使用联合索引的查询条件a可使用索引

%%开头是不会使用索引的

修改索引删除记录

alter table T engine=InnoDB

关于索引的题

CREATE TABLE `geek` (

`a` int(11) NOT NULL,

`b` int(11) NOT NULL,

`c` int(11) NOT NULL,

`d` int(11) NOT NULL,

PRIMARY KEY (`a`,`b`),

KEY `c` (`c`),

KEY `ca` (`c`,`a`),

KEY `cb` (`c`,`b`)

) ENGINE=InnoDB;

因为历史缘由，这个表须要 a、b 作联合主键

那意味着单独在字段 c 上建立一个索引，就已经包含了三个字段为何要建立“ca”“cb”这两个索引？

select * from geek where c=N order by a limit 1;//和c的索引同样

select * from geek where c=N order by b limit 1;//和c的索引不同

问题这位同事的解释对吗? 哪些索引没有必要能够删除

表记录

–a--|–b--|–c--|–d--

1 2 3 d

1 3 2 d

1 4 3 d

2 1 3 d

2 2 2 d

2 3 4 d

主键 a，b 的聚簇索引组织顺序至关于 order by a,b ，也就是先按 a 排序，再按 b 排序，c 无序。

索引 ca 的组织是先按 c 排序，再按 a 排序，同时记录主键

–c--|–a--|–主键部分b-- （注意，这里不是 ab，而是只有 b）

2 1 3

2 2 2

3 1 2

3 1 4

3 2 1

4 2 3

上面的这个索引ca 与索引c 的数据是如出一辙的

索引 cb 的组织是先按 c 排序，在按 b 排序，同时记录主键

–c--|–b--|–主键部分a-- （同上）

2 2 2

2 3 1

3 1 2

3 2 1

3 4 1

4 3 2

因此结论是ca能够去掉 cb保留

经常使用的两种索引结构：B-tree和HASH

B-tree

B-tree索引可以加快访问数据的速度，由于存储引擎再也不须要经行全表扫描来获取须要的数据，取而代之的是从根节点开始搜索。根节点的槽中存放了指向子节点的指针，存储引擎根据这些指针向下查找。一般比较节点页的值和要查找的值能够找到合适的指针进入下层子节点。

B-tree一般意味着全部的值都是按顺序存储的，而且每个叶子页到根的距离相同。
如上图，是一颗B-tree，关于B-tree的定义能够参见B-tree，这里只说一些重点，浅蓝色的块咱们称之为一个磁盘块，能够看到每一个磁盘块包含几个数据项（深蓝色所示）和指针（黄色所示），如磁盘块1包含数据项17和35，包含指针P一、P二、P3，P1表示小于17的磁盘块，P2表示在17和35之间的磁盘块，P3表示大于35的磁盘块。真实的数据存在于叶子节点即三、五、九、十、1三、1五、2八、2九、3六、60、7五、7九、90、99。非叶子节点只不存储真实的数据，只存储指引搜索方向的数据项，如1七、35并不真实存在于数据表中。

B-tree的查找过程

如图所示，若是要查找数据项29，那么首先会把磁盘块1由磁盘加载到内存，此时发生一次IO，在内存中用二分查找肯定29在17和35之间，锁定磁盘块1的P2指针，内存时间由于很是短（相比磁盘的IO）能够忽略不计，经过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘加载到内存，发生第二次IO，29在26和30之间，锁定磁盘块3的P2指针，经过指针加载磁盘块8到内存，发生第三次IO，同时内存中作二分查找找到29，结束查询，总计三次IO。真实的状况是，3层的B-tree能够表示上百万的数据，若是上百万的数据查找只须要三次IO，性能提升将是巨大的，若是没有索引，每一个数据项都要发生一次IO，那么总共须要百万次的IO，显然成本很是很是高。

B-tree性质

经过上面的分析，咱们知道IO次数取决于b+数的高度h，假设当前数据表的数据为N，每一个磁盘块的数据项的数量是m，则有h=㏒(m+1) N，当数据量N必定的状况下，m越大，h越小；而m = 磁盘块的大小 / 数据项的大小，磁盘块的大小也就是一个数据页的大小，是固定的，若是数据项占的空间越小，数据项的数量越多，树的高度越低。这就是为何每一个数据项，即索引字段要尽可能的小，好比int占4字节，要比bigint8字节少一半。这也是为何B-tree要求把真实的数据放到叶子节点而不是内层节点，一旦放到内层节点，磁盘块的数据项会大幅度降低，致使树增高。当数据项等于1时将会退化成线性表。
当B-tree的数据项是复合的数据结构，好比(name,age,sex)的时候，b+数是按照从左到右的顺序来创建搜索树的，好比当(张三,20,F)这样的数据来检索的时候，B-tree会优先比较name来肯定下一步的所搜方向，若是name相同再依次比较age和sex，最后获得检索的数据；但当(20,F)这样的没有name的数据来的时候，B-tree就不知道下一步该查哪一个节点，由于创建搜索树的时候name就是第一个比较因子，必需要先根据name来搜索才能知道下一步去哪里查询。好比当(张三,F)这样的数据来检索时，B-tree能够用name来指定搜索方向，但下一个字段age的缺失，因此只能把名字等于张三的数据都找到，而后再匹配性别是F的数据了，这个是很是重要的性质，即索引的最左匹配特性。

注意：B-tree的高度通常都在2-4层，这也就是说查找某一键值的行记录最多只要2到4次IO，花费0.02-0.04秒左右。B-tree索引适用于全值匹配、匹配最左前缀、匹配列前缀、匹配范围值

创建索引的原则

最左前缀匹配原则，很是重要的原则，mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就中止匹配，好比a = 1 and b = 2 and c > 3 and d = 4 若是创建(a,b,c,d)顺序的索引，d是用不到索引的，若是创建(a,b,d,c)的索引则均可以用到，a,b,d的顺序能够任意调整。
=和in能够乱序，好比a = 1 and b = 2and c = 3 创建(a,b,c)索引能够任意顺序，mysql的查询优化器会帮你优化成索引能够识别的形式。
尽可能选择区分度高的列做为索引,区分度的公式是count(distinct col)/count(*)，表示字段不重复的比例，比例越大咱们扫描的记录数越少，惟一键的区分度是1，而一些状态、性别字段可能在大数据面前区分度就是0，那可能有人会问，这个比例有什么经验值吗？使用场景不一样，这个值也很难肯定，通常须要join的字段咱们都要求是0.1以上，即平均1条扫描10条记录。
索引列不能参与计算，保持列“干净”，好比from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，缘由很简单，b+树中存的都是数据表中的字段值，但进行检索时，须要把全部元素都应用函数才能比较，显然成本太大。因此语句应该写成create_time = unix_timestamp(’2014-05-29’);
尽可能的扩展索引，不要新建索引。好比表中已经有a的索引，如今要加(a,b)的索引，那么只须要修改原来的索引便可。

举例子：

数据表以下，

数据量：

咱们经过explain查看执行计划
首先咱们在没有添加索引时，进行以下查询。咱们能够看出type=all代表全表扫描，估计查询行数为4070行。

如今咱们添加索引以下，

在经过explain查询执行计划，咱们发现该查询的行数估计为1行。

哈希索引

Mysql中只有在memory引擎显示支持哈希索引。
哈希索引基于哈希表实现，只有精确匹配索引全部列的列才有效。 对于每一行数据，存储引擎都会对全部索引计算一个哈希码，哈希码是一个较小的值而且不一样键值计算出来的哈希码都不同。哈希索引将全部的哈希码存储在索引中，同时在哈希表中保存指向每一个数据的指针。

哈希索引的限制：

哈希索引只包含哈希值和行指针，而不知存储字段值，因此不能使用索引中的值来避免读取行（ID也必须回表）。若读取行，则必须进行行一次IO操做。
哈希索引并非按照哈希值顺序存储的，因此也就没法用于排序。
哈希值也不支持部分索引，由于哈希值始终是使用索引列中全部的内容计算哈希值的。例如，在数据（A,B）上创建哈希索引，若是只查询A则不能使用哈希索引。
哈希索引只支持等值查询。
哈希索引查询速度很是快，除非出现出现冲突。

注意：Innodb引擎有一个特殊的功能叫作“自适应哈希索引”。当Innodb注意到某些索引值使用很是频繁时，它会在内存中基于B-tree索引之上再创建一个哈希索引。这是一个彻底自动、内部的行为，用户没法配置或者设置，不过有必要能够关闭此功能。

建立自定义哈希索引

思路：在B-tree基础上建立一个伪哈希索引。这和真正的哈希索引不是一回事，它使用哈希值而不是键自己经行查找。须要在操做中在where语句中手动指定哈希函数。

其中，url_crc用来存储哈希值。该值根据url和哈希函数得出。
咱们经过触发器来实现维护哈希值。

若是采用这种方式，记住不要使用SHA1（）和MD5（）做为哈希函数。由于这两个值计算出来的哈希值是很是长的字符串，会浪费大量时间，比较时也会比较慢。
在出现哈希冲突时，必须在子句中包含常量值。

Mysql常见的索引：主键索引、惟一索引、普通索引、全文索引、组合索引

1.惟一索引

与普通索引相似，不一样的就是：索引列的值必须惟一，但容许有空值（注意和主键不一样）。若是是组合索引，则列值的组合必须惟一。

例如，在已经存好数据的表中添加惟一索引，若是值有重复会报错，

2.主键索引

它是一种特殊的惟一索引，不容许有空值。

3.组合索引

平时用的SQL查询语句通常都有比较多的限制条件，因此为了进一步榨取MySQL的效率，就要考虑创建组合索引。

至关于同时建立了三个索引，
（ConutryCode,District,Name）,(CountryCode,District),(CountryCode)。
这是由于从最左开始组合的。因此依次生成了三个索引。

3.全文索引

在前面描述中，在B-tree中能够经过列前缀进行查询。例如

select * from testwhere body=”hello%”;

然而，咱们更广泛的查找方式是，

select * from testwhere body=”%hello%”;

全文索引能够支持各类字符在内的搜索，也支持天然语言搜索和布尔搜索。

注意，在innodb存储引擎中为了支持全文索引，必须有一列与word经行映射。在Innodb中这个列别命名为FTS_DOC_ID，其类型必须是BIGINT UNSIGNED NOT NULL，而且innodb存储引擎自动会在该列上加入一个名为FTS_DOC_ID_INDEX的unique index。上述操做都是由Innodb存储引擎本身完成的，用户也可在建表时手动添加FTS_DOC_ID以及相应的Unique idnex。

插入数据

创建全文索引

mysql> create fulltext index idx on fts(body);

能够看出每个word都对应一个DOC_ID和POSITION。此外还记录了FIRST_ID,LAST_DOC_ID以及DOC_COUNT，分别表明了word第一次出现的文档ID，最后一次出现的文档ID，以及word在在多少个文档中存在。

全文索引的天然语言索引

天然语言索引引擎将计算每个文档对象和查询的相关度。这里，相关度是指基于匹配的关键词个数，以及关键词在文档中出现的个数。
天然语言索引是默认的。
函数match（）将返回关键词匹配的相关度，是一个浮点数字。
在match（）中指定的列必须和全文索引中指定的列彻底相同，不然没法只用全文索引。
举例子，

Boolen全文索引

Mysql数据库容许使用in boolen model修饰符来经行全文检索。当使用该修饰符时，查询字符串先后字符会有特殊含义。

Boolen全文检索支持如下几种操做符：
l +：表示word必须存在
l -：表示word必须不存在

l (no operator) 表示word是可选的。可是若是是可选的，其相关性会更高。

l @distance表示查询的多个单词之间的距离是否在distance以内。

2 rows in set(0.00 sec)
l >表示出现该word增长相关性
l <表示出现该word下降相关性

l ~容许出现该单词，可是出现时相关性为负。
l 表示以该单词开头的单词，如lik，表示能够是like，likes和lik

---------------+2 rows in set(0.00 sec)

l “表示短语

注意到，第一个against（“hello world“）是将hello和world看成两个单词经行查询。而第二个against（‘”hello world“’）是将这两个单词看成短语经行查询。

索引区别

普通索引：最基本的索引，没有任何限制
惟一索引：与"普通索引"相似，不一样的就是：索引列的值必须惟一，但容许有空值。
主键索引：它是一种特殊的惟一索引，不容许有空值。
全文索引：针对较大的数据，生成全文索引很耗时好空间。
组合索引：为了更多的提升mysql效率可创建组合索引，遵循”最左前缀“原则。

Mysql索引

Mysql索引

主键是逻辑键，索引是物理键，意思就是主键不实际存在，而索引实际存在在数据库中

索引会真正的产生一个文件的，数据会真正的产生一个文件的

redo log 记录的是物理日志"某个数据页上作了什么修改" 循环使用

bin log 记录的是逻辑日志 语句的原始逻辑"ID=1 ,2 " 追加使用

而主键不会产生一个文件的 主键的搜索靠索引的树的搜索

数据的概念

数据有数据页的概念

mysql也有内存的概念 ,查询的时候 先看所在的数据页 是否在内存中 ,若是存在查询直接返回,若是不存在则去磁盘加载到内存再返回

因此更新操做

若是内存不存在 先去磁盘加载到内存而后修改后 再将值放入内存 ,而且再更新到redo log 日志表中

索引的原理

1.B+树索引 二叉搜索树这棵树是平衡二叉树 N叉树为了减小树高

若是语句是 select * from T where ID=500，即主键查询方式，则只须要搜索 ID 这棵 B+树

若是语句是 select * from T where k=5，即普通索引查询方式，则须要先搜索 k 索引树，ID 的值为 500，再到 ID 索引树搜索一次。这个过程称回表

也就是说，基于非主键索引的查询须要多扫描一棵索引树,所以，咱们在应用中应该尽可能使用主键查询。

2. 一个数据页满了，按照B+Tree算法，新增长一个数据页，叫作页分裂，会致使性能降低。空间利用率下降大概50%。

当相邻的两个数据页利用率很低的时候会作数据页合并，合并的过程是分裂过程的逆过程。

3.从性能和存储空间方面考量，自增主键每每是更合理的选择。

4.显然，主键长度越小，普通索引的叶子节点就越小，普通索引占用的空间也就越小。

所以自增主键比较合适

覆盖索引

create table T ( ID int primary key,

k int NOT NULL DEFAULT 0,

s varchar(16) NOT NULL DEFAULT '',

index k(k))

engine=InnoDB;

insert into T values(100,1, 'aa'),(200,2,'bb'),(300,3,'cc'),(500,5,'ee'),(600,6,'ff'),(700,7,'gg');

select * from T where k between 3 and 5 这种查询K的索引搜索到主键 而后搜索主键的索引 拿到具体的信息有回表

覆盖索引

最左前缀原则

索引(a,b) 查询条件b是没法使用联合索引的 查询条件a可使用索引

%%开头是不会使用索引的

修改索引删除记录

alter table T engine=InnoDB

关于索引的题

CREATE TABLE `geek` (

`a` int(11) NOT NULL,

`b` int(11) NOT NULL,

`c` int(11) NOT NULL,

`d` int(11) NOT NULL,

PRIMARY KEY (`a`,`b`),

KEY `c` (`c`),

KEY `ca` (`c`,`a`),

KEY `cb` (`c`,`b`)

) ENGINE=InnoDB;

因为历史缘由，这个表须要 a、b 作联合主键

那意味着单独在字段 c 上建立一个索引，就已经包含了三个字段为何要建立“ca”“cb”这两个索引？

select * from geek where c=N order by a limit 1;//和c的索引同样

select * from geek where c=N order by b limit 1;//和c的索引不同

问题 这位同事的解释对吗? 哪些索引没有必要能够删除

表记录

–a--|–b--|–c--|–d--

1 2 3 d

1 3 2 d

1 4 3 d

2 1 3 d

2 2 2 d

2 3 4 d

主键 a，b 的聚簇索引组织顺序至关于 order by a,b ，也就是先按 a 排序，再按 b 排序，c 无序。

索引 ca 的组织是先按 c 排序，再按 a 排序，同时记录主键

–c--|–a--|–主键部分b-- （注意，这里不是 ab，而是只有 b）

2 1 3

2 2 2

3 1 2

3 1 4

3 2 1

4 2 3

上面的这个索引ca 与 索引c 的数据是如出一辙的

索引 cb 的组织是先按 c 排序，在按 b 排序，同时记录主键

–c--|–b--|–主键部分a-- （同上）

2 2 2

2 3 1

3 1 2

3 2 1

3 4 1

4 3 2

因此结论是ca能够去掉 cb保留

经常使用的两种索引结构：B-tree和HASH

bin log 记录的是逻辑日志语句的原始逻辑"ID=1 ,2 " 追加使用

而主键不会产生一个文件的主键的搜索靠索引的树的搜索

mysql也有内存的概念 ,查询的时候先看所在的数据页是否在内存中 ,若是存在查询直接返回,若是不存在则去磁盘加载到内存再返回

若是内存不存在先去磁盘加载到内存而后修改后再将值放入内存 ,而且再更新到redo log 日志表中

1.B+树索引二叉搜索树这棵树是平衡二叉树 N叉树为了减小树高

select * from T where k between 3 and 5 这种查询K的索引搜索到主键而后搜索主键的索引拿到具体的信息有回表

索引(a,b) 查询条件b是没法使用联合索引的查询条件a可使用索引

问题这位同事的解释对吗? 哪些索引没有必要能够删除

上面的这个索引ca 与索引c 的数据是如出一辙的