数据库索引是什么?新华字典来帮你

学过服务器端开发的朋友必定知道,程序没有数据库索引也能够运行。可是全部学习数据库的资料、教程,必定会有大量的篇幅在介绍数据库索引,各类后端开发工做的面试也必定绕不开索引,甚至能够说数据库索引是从后端初级开发跨越到高级开发的屠龙宝刀,那么索引到底在服务端程序中起着怎样的做用呢?面试

这篇文章是一系列数据库索引文章中的第一篇,这个系列包括了下面四篇文章:数据库

  1. 数据库索引是什么?新华字典来帮你 —— 理解后端

  2. 数据库索引融会贯通 —— 深刻服务器

  3. 20分钟数据库索引设计实战 —— 实战post

  4. 数据库索引为何用B+树实现? —— 扩展学习

这一系列涵盖了数据库索引从理论到实践的一系列知识,一站式解决了从理解到融会贯通的全过程,相信每一篇文章均可以给你带来更深刻的体验。设计

什么是数据库索引?

用一句话来描述:数据库索引就是一种加快海量数据查询的关键技术。如今还不理解这句话?没关系,往下看,20分钟之后你就能本身作出这样的总结来了。code

首先给你们看一张图片cdn

image.png

这本书你们必定都很熟悉,小学入门第一课必定就是教小朋友们学习如何使用这本书。那这和咱们的数据库索引有啥关系呢?别着急,咱们翻开第一页看看。blog

image.png

请你们注意右上角的那一排文字,原来目录就是传说中的索引呀!从前面的“一句话描述”咱们能够知道,索引的目的就是为了加快数据查询。那么咱们查字典时翻的第一个地方是哪里呢,我相信大部分人都会先翻到拼音目录,毕竟如今不少人都是提笔忘字了😂。

数据库索引的做用和拼音目录是同样的,就是最快速的锁定目标数据所在的位置范围。好比咱们在这里要查这个字,那么咱们找到了Xx部分以后就能按顺序找到xian这个拼音所在的页码,根据先后的页码咱们能够知道这个字必定是在519页到523页之间的,范围一会儿就缩小到只有4页了。这相比咱们从头翻到尾但是快多了,这时候就出现了第一个专业术语——全表扫描,也就是咱们说的从头找到尾了。

果真,咱们在第521页找到了咱们要找的“险”字。

image.png

那么如今咱们就知道数据库索引大概是一个什么东西了:数据库索引是一个相似于目录这样的用来加快数据查询的技术。

什么是联合索引?

相信你们都见过一些包含多个字段的数据库索引,好比INDEX idx_test(col_a, col_b)。这种包含多个字段的索引就被称为**“联合索引”**。那么在多个字段上建索引能起到什么样的做用呢?下面仍是以新华字典为例,来看看到底什么是联合索引。

新华字典里还有一种目录被称为“部首目录”,下面能够看到,要使用这个目录咱们首先会根据部首的笔画数找到对应该能的部分,而后能够在里面找到咱们想找的部首。好比若是咱们仍是要找字所在的位置:

image.png

找到部首后,右边的页码还不是字真正的页码,咱们还须要根据右边的页码找到对应部首在检字表中的位置。找到第93页的检字表后咱们就能够根据字余下的笔画数(7画)在“6-8画”这一部分里找到字真正的页码了。

image.png

在这个过程当中,咱们按顺序使用了“两个目录”,一个叫作“部首目录”,一个叫作“检字表”。而且咱们能够看到上图中检字表的内容都是按部首分门别类组织的。这两个部分合在一块儿就是咱们在本节讨论的主题——联合索引。即经过第一个字段的值(部首)在第一级索引中找到对应的第二级索引位置(检字表页码),而后在第二级索引中根据第二个字段的值(笔画)找到符合条件的数据所在的位置(字的真正页码)。

最左前缀匹配

从前面使用部首目录的例子中能够看出,若是咱们不知道一个字的部首是什么的话,那基本是没办法使用这个目录的。这说明仅仅经过笔画数(第二个字段)是没办法使用部首目录的。

这就引伸出了联合索引的一个规则:联合索引中的字段,只有某个字段(笔画)左边的全部字段(部首)都被使用了,才能使用该字段上的索引。例如,有索引INDEX idx_i1(col_a, col_b),若是查询条件为where col_b = 1,则没法使用索引idx_i1

可是若是咱们知道部首可是不知道笔画数,好比不知道“横折竖弯勾”是算一笔仍是两笔,那咱们仍然可使用“部首目录”部分的内容,只是要把“检字表”对应部首里的全部字都看一遍就能找到咱们要找的字了。

这就引伸出了联合索引的另外一个规则:联合索引中的字段,即便某个字段(部首)右边的其余字段(笔画)没有被使用,该字段以前(含)的全部字段仍然能够正常使用索引。例如,有索引INDEX idx_i2(col_a, col_b, col_c),则查询条件where col_a = 1 and col_b = 2在字段col_acol_b上仍然能够走索引。

可是,若是咱们在肯定部首后,不知道一个字究竟是两画仍是三画,这种状况下咱们只须要在对应部首的两画和三画部分中找就能够了,也就是说咱们仍然使用了检字表中的内容。因此,使用范围条件查询时也是可使用索引的。

最后,咱们能够完整地表述一下最左前缀匹配原则的含义:对于一个联合索引,若是有一个SQL查询语句须要执行,则只有从索引最左边的第一个字段开始到SQL语句查询条件中不包含的字段(不含)或范围条件字段(含)为止的部分才会使用索引进行加速。

这里出现了一个以前没有提到的点,就是范围条件字段也会结束对索引上后续字段的使用,这是为何呢?具体缘由的解释涉及到了更深层次的知识,在接下来的第二篇文章的最后就能够找到答案。

什么是汇集索引?

从上文的部首目录和拼音目录同时存在可是实际的字典内容只有一份这一点上能够看出,在数据库中一张表上是能够有多个索引的。那么不一样的索引之间有什么区别呢?

咱们在新华字典的侧面能够看到一个V字形的一个个黑色小方块,有不少人都会在侧面写上A, B, C, D这样对应的拼音字母。由于字典中全部的字都是按照拼音顺序排列的,有时候直接使用首字母翻开对应的部分查也很快。

image.png

像拼音目录这样的索引,数据会根据索引中的顺序进行排列和组织的,这样的索引就被称为汇集索引,而非汇集索引就是其余的通常索引。由于数据只能按照一种规则排序,因此一张表至多有一个汇集索引,但能够有多个非汇集索引。

在MySQL数据库的InnoDB存储引擎中,主键索引就是汇集索引,全部数据都会按照主键索引进行组织;而在MyISAM存储引擎中,就没有汇集索引了,由于MyISAM存储引擎中的数据不是按索引顺序进行存储的。