谈谈MYSQL索引是如何提升查询效率的

简介: 什么是索引,索引的底层数据结构,索引的几种类型git

文章已收录Github精选,欢迎Star:https://github.com/yehongzhi/learningSummary程序员

前言

咱们都知道当查询数据库变慢时,须要建索引去优化。可是只知道索引能优化显然是不够的,咱们更应该知道索引的原理,由于不是加了索引就必定会提高性能。那么接下来就一块儿探索MYSQL索引的原理吧。github

什么是索引

索引实际上是一种能高效帮助MYSQL获取数据的数据结构,一般保存在磁盘文件中,比如一本书的目录,能加快数据库的查询速度。除此以外,索引是有序的,因此也能提升数据的排序效率。数据库

一般MYSQL的索引包括聚簇索引,覆盖索引,复合索引,惟一索引,普通索引,一般底层是B+树的数据结构。数据结构

总结一下,索引的优点在于:性能

  • 提升查询效率。
  • 下降数据排序的成本。

缺点在于:优化

  • 索引会占用磁盘空间。
  • 索引会下降更新表的效率。由于在更新数据时,要额外维护索引文件。

索引的类型

  • 聚簇索引

索引列的值必须是惟一的,而且不能为空,一个表只能有一个聚簇索引。阿里云

  • 惟一索引

索引列的值是惟一的,值能够为空。url

  • 普通索引

没有什么限制,容许在定义索引的列中插入重复值和空值。spa

  • 复合索引

也叫组合索引,用户能够在多个列上组合创建索引,遵循“最左匹配原则”,在条件容许的状况下使用复合索引能够替代多个单列索引的使用。

索引的数据结构

咱们都知道索引的底层数据结构采用的是B+树,可是在讲B+树以前,要先知道B树,由于B+树是在B树上面进行改进优化的。

首先讲一下B树的特色:

  • B树的每一个节点都存储了多个元素,每一个内节点都有多个分支。
  • 节点中元素包含键值和数据,节点中的键值从小到大排序。
  • 父节点的数据不会出如今子节点中。
  • 全部的叶子节点都在同一层,叶节点具备相同的深度。

在上面的B树中,假如咱们要找值等于18的数据,查找路径就是磁盘块1->磁盘块3->磁盘块8。

过程以下:

第一次磁盘IO:首先加载磁盘块1到内存中,在内存中遍历比较,由于17<18<50,因此走中间P2,定位到磁盘块3。

第二次磁盘IO:加载磁盘块3到内存,依然是遍历比较,18<25,因此走左边P1,定位到磁盘块8。

第三次磁盘IO:加载磁盘块8到内存,在内存中遍历,18=18,找到18,取出data。

如图所示:

若是data存储的是行数据,直接返回,若是存的是磁盘地址则根据磁盘地址到磁盘中取出数据。能够看出B树的查询效率是很高的。

B树存在着什么问题,须要改进优化呢?

第一个问题:B树在范围查询时,性能并不理想。假如要查询13到30之间的数据,查询到13后又要回到根节点再去查询后面的数据,就会产生屡次的查询遍历。

第二个问题:由于非叶子节点和叶子节点都会存储数据,因此占用的空间大,一个页可存储的数据量就会变少,树的高度就会变高,磁盘的IO次数就会变多。

基于以上两个问题,就出现了B树的升级版,B+树。

B+树与B树最大的区别在于两点:

  • B+树只有叶子节点存储数据,非叶子节点只存储键值。而B树的非叶子节点和叶子节点都会存储数据。
  • B+树的最底层的叶子节点会造成一个双向有序链表,而B树不会。

如图所示:

B+树的等值查询过程是怎么样的?

若是在B+树中进行等值查询,好比查询等于13的数据。

查询路径为:磁盘块1->磁盘块2->磁盘块6。

第一次IO:加载磁盘块1,在内存中遍历比较,13<17,走左边,找到磁盘块2。

第二次IO:加载磁盘块2,在内存中遍历比较,10<13<15,走中间,找到磁盘块6。

第三次IO:加载磁盘块6,依次遍历,找到13=13,取出data。

因此B+树在等值查询的效率是很高的。

B+树的范围查询过程又是怎么样呢?

好比咱们要进行范围查询,查询大于5而且小于15的数据。

查询路径为:磁盘块1->磁盘块2->磁盘块5->磁盘块6。

第一次IO:加载磁盘块1,比较得出5<17,而后走左边,找到磁盘块2。

第二次IO:加载磁盘块2,比较5<10,而后仍是走左边,找到磁盘块5。

第三次IO:加载磁盘块5,而后找大于5的数据。

第四次IO:因为最底层是有序的双向链表,因此继续往右遍历便可,直到不符合小于15的数据为止。

过程如图所示:

因此在范围查询的时候,是不须要像B树同样,再回到根节点,这就是底层采用双向链表的好处。

因此B+树的优点在于,能保证等值查询和范围查询的快速查找

InnoDB索引

咱们经常使用的MySQL存储引擎通常是InnoDB,因此接下来说讲几种不一样的索引的底层数据结构,以及查找过程。

聚簇索引

前面讲过,每一个InnoDB表有且仅有一个聚簇索引。除此以外,聚簇索引在表的建立有如下几点规则:

  • 在表中,若是定义了主键,InnoDB会将主键索引做为聚簇索引。
  • 若是没有定义主键,则会选择第一个不为NULL的惟一索引列做为聚簇索引。
  • 若是以上两个都没有。InnoDB 会使用一个6 字节长整型的隐式字段 ROWID字段构建聚簇索引。该ROWID字段会在插入新行时自动递增。

除了聚簇索引以外的索引都称为非聚簇索引,区别在于,聚簇索引的叶子节点存储的数据是整行数据,而非聚簇索引存储的是该行的主键值。

好比有一张user表,如图所示:

底层的数据结构就像这样:

当咱们用主键值去查询的时候,查询效率是很快的,由于能够直接返回数据。

普通索引

也就是用得最多的一种索引,好比我要为user表的age列建立索引,SQL语句能够这样写:

CREATE INDEX INDEX_USER_AGE ON `user`(age);

普通索引属于非聚簇索引,因此叶子节点存储的是主键值,底层的数据结构大概长这个样子:

好比要查询age=33的数据,那么首先查到磁盘块7的age=33的数据,获取到主键值,主键值为4。

接着再经过主键值等于4,查询到该行的数据。因此总得来讲,底层会进行两次查询。

这种先经过查询主键值,再经过主键值查询到数据的过程就叫作回表查询。

覆盖索引

既然上面提到了回表查询,那么天然而然会想到,有没有什么办法能避免回表查询呢?答案确定是有的,那就是使用覆盖索引。

覆盖索引不是一种索引的类型,而是一种使用索引的方式。假设你须要查询的列是创建了索引,查询的结果在索引列上就能获取,那就能够用覆盖索引。

好比上面的例子,咱们经过age=33查询,我须要查询的结果就只要age这一列,那就能够用到覆盖索引,如图所示:

使用到覆盖索引的话,就能避免回表查询,因此在写SQL语句时尽可能不要写SELECT *。

总结

这篇文章主要讲的是索引的类型,索引的数据结构,以及InnoDB表中经常使用的几种索引。固然,除了上述讲的这些以外,还有不少关于索引的知识,好比索引失效的场景,索引建立的原则等等,因为篇幅过长,留着之后再讲。

那么这篇文章就写到这里了,感谢你们的阅读。

以为有用就点个赞吧,你的点赞是我创做的最大动力~

我是一个努力让你们记住的程序员。咱们下期再见!!!

https://developer.aliyun.com/article/784382?utm_content=g_1000275186

本文为阿里云原创内容,未经容许不得转载。

相关文章
相关标签/搜索