【总结】数据库索引的实现原理

时间 2019-11-10

标签总结数据库索引实现原理栏目 SQL 繁體版

原文原文链接

1、概述

数据库索引，是数据库管理系统中一个排序的数据结构，以协助快速查询、更新数据库表中数据。索引的实现一般使用B树及其变种B+树。在数据以外，数据库系统还维护着知足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就能够在这些数据结构上实现高级查找算法。这种数据结构，就是索引。其实说穿了，索引问题就是一个查找问题。html

2、索引的原理

当咱们的业务产生了大量的数据时，查找数据的效率问题也就随之而来，因此咱们能够经过为表设置索引，而为表设置索引要付出代价的：一是增长了数据库的存储空间，二是在插入和修改数据时要花费较多的时间(由于索引也要随之变更)。node

上图展现了一种可能的索引方式。左边是数据表，一共有两列七条记录，最左边的是数据记录的物理地址（注意逻辑上相邻的记录在磁盘上也并非必定物理相邻的）。为了加快Col2的查找，能够维护一个右边所示的二叉查找树，每一个节点分别包含索引键值和一个指向对应数据记录物理地址的指针，这样就能够运用二叉查找在O(log₂n)的复杂度内获取到相应数据。算法

索引是创建在数据库表中的某些列的上面。在建立索引的时候，应该考虑在哪些列上能够建立索引，在哪些列上不能建立索引。通常来讲，应该在这些列上建立索引：在常常须要搜索的列上，能够加快搜索的速度；在做为主键的列上，强制该列的惟一性和组织表中数据的排列结构；在常常用在链接的列上，这些列主要是一些外键，能够加快链接的速度；在常常须要根据范围进行搜索的列上建立索引，由于索引已经排序，其指定的范围是连续的；在常常须要排序的列上建立索引，由于索引已经排序，这样查询能够利用索引的排序，加快排序查询时间；在常用在WHERE子句中的列上面建立索引，加快条件的判断速度。数据库

建立索引能够大大提升系统的性能。数据结构

第一，经过建立惟一性索引，能够保证数据库表中每一行数据的惟一性。
第二，能够大大加快数据的检索速度，这也是建立索引的最主要的缘由。
第三，能够加速表和表之间的链接，特别是在实现数据的参考完整性方面特别有意义。
第四，在使用分组和排序子句进行数据检索时，一样能够显著减小查询中分组和排序的时间。
第五，经过使用索引，能够在查询的过程当中，使用优化隐藏器，提升系统的性能。

也许会有人要问：增长索引有如此多的优势，为何不对表中的每个列建立一个索引呢？由于，增长索引也有许多不利的方面。数据库设计

建立索引的弊端性能

第一，建立索引和维护索引要耗费时间，这种时间随着数据量的增长而增长。
第二，索引须要占物理空间，除了数据表占数据空间以外，每个索引还要占必定的物理空间，若是要创建聚簇索引，那么须要的空间就会更大。
第三，当对表中的数据进行增长、删除和修改的时候，索引也要动态的维护，这样就下降了数据的维护速度。

一样，对于有些列不该该建立索引。通常来讲，不该该建立索引的的这些列具备下列特色：优化

第一，对于那些在查询中不多使用或者参考的列不该该建立索引。这是由于，既然这些列不多使用到，所以有索引或者无索引，并不能提升查询速度。相反，因为增长了索引，反而下降了系统的维护速度和增大了空间需求。
第二，对于那些只有不多数据值的列也不该该增长索引。这是由于，因为这些列的取值不多，例如人事表的性别列，在查询的结果中，结果集的数据行占了表中数据行的很大比例，即须要在表中搜索的数据行的比例很大。增长索引，并不能明显加快检索速度。
第三，对于那些定义为text, image和bit数据类型的列不该该增长索引。这是由于，这些列的数据量要么至关大，要么取值不多。
第四，当修改性能远远大于检索性能时，不该该建立索引。这是由于，修改性能和检索性能是互相矛盾的。当增长索引时，会提升检索性能，可是会下降修改性能。当减小索引时，会提升修改性能，下降检索性能。所以，当修改性能远远大于检索性能时，不该该建立索引。

3、索引的类型

根据数据库的功能，能够在数据库设计器中建立三种索引：惟一索引、主键索引和汇集索引。spa

惟一索引 操作系统

惟一索引是不容许其中任何两行具备相同索引值的索引。

当现有数据中存在重复的键值时，大多数数据库不容许将新建立的惟一索引与表一块儿保存。数据库还可能防止添加将在表中建立重复键值的新数据。例如，若是在employee表中职员的姓(lname)上建立了惟一索引，则任何两个员工都不能同姓。

主键索引

数据库表常常有一列或列组合，其值惟一标识表中的每一行。该列称为表的主键。

在数据库关系图中为表定义主键将自动建立主键索引，主键索引是惟一索引的特定类型。该索引要求主键中的每一个值都惟一。当在查询中使用主键索引时，它还容许对数据的快速访问。

汇集索引

在汇集索引中，表中行的物理顺序与键值的逻辑（索引）顺序相同。一个表只能包含一个汇集索引。

若是某索引不是汇集索引，则表中行的物理顺序与键值的逻辑顺序不匹配。与非汇集索引相比，汇集索引一般提供更快的数据访问速度。

4、局部性原理与磁盘预读

因为存储介质的特性，磁盘自己存取就比主存慢不少，再加上机械运动耗费，磁盘的存取速度每每是主存的几百分分之一，所以为了提升效率，要尽可能减小磁盘I/O。为了达到这个目的，磁盘每每不是严格按需读取，而是每次都会预读，即便只须要一个字节，磁盘也会从这个位置开始，顺序向后读取必定长度的数据放入内存。这样作的理论依据是计算机科学中著名的局部性原理：当一个数据被用到时，其附近的数据也一般会立刻被使用。程序运行期间所须要的数据一般比较集中。因为磁盘顺序读取的效率很高（不须要寻道时间，只需不多的旋转时间），所以对于具备局部性的程序来讲，预读能够提升I/O效率。预读的长度通常为页（page）的整倍数。页是计算机管理存储器的逻辑块，硬件及操做系统每每将主存和磁盘存储区分割为连续的大小相等的块，每一个存储块称为一页（在许多操做系统中，页得大小一般为4k），主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时，会触发一个缺页异常，此时系统会向磁盘发出读盘信号，磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中，而后异常返回，程序继续运行。

5、B树和B+树数据结构

一、B树

B树中每一个节点包含了键值和键值对于的数据对象存放地址指针，因此成功搜索一个对象能够不用到达树的叶节点。成功搜索包括节点内搜索和沿某一路径的搜索，成功搜索时间取决于关键码所在的层次以及节点内关键码的数量。在B树中查找给定关键字的方法是：首先把根结点取来，在根结点所包含的关键字K1,…,kj查找给定的关键字（可用顺序查找或二分查找法），若找到等于给定值的关键字，则查找成功；不然，必定能够肯定要查的关键字在某个Ki或Ki+1之间，因而取Pi所指的下一层索引节点块继续查找，直到找到，或指针Pi为空时查找失败。

二、B+树

B+树非叶节点中存放的关键码并不指示数据对象的地址指针，非也节点只是索引部分。全部的叶节点在同一层上，包含了所有关键码和相应数据对象的存放地址指针，且叶节点按关键码从小到大顺序连接。若是实际数据对象按加入的顺序存储而不是按关键码次数存储的话，叶节点的索引必须是稠密索引，若实际数据存储按关键码次序存放的话，叶节点索引时稀疏索引。

B+树有2个头指针，一个是树的根节点，一个是最小关键码的叶节点。

因此 B+树有两种搜索方法：

一种是按叶节点本身拉起的链表顺序搜索。

一种是从根节点开始搜索，和B树相似，不过若是非叶节点的关键码等于给定值，搜索并不中止，而是继续沿右指针，一直查到叶节点上的关键码。因此不管搜索是否成功，都将走完树的全部层。

B+ 树中，数据对象的插入和删除仅在叶节点上进行。

这两种处理索引的数据结构的不一样之处：
一、B树中同一键值不会出现屡次，而且它有可能出如今叶结点，也有可能出如今非叶结点中。而B+树的键必定会出如今叶结点中，而且有可能在非叶结点中也有可能重复出现，以维持B+树的平衡。
二、由于B树键位置不定，且在整个树结构中只出现一次，虽然能够节省存储空间，但使得在插入、删除操做复杂度明显增长。B+树相比来讲是一种较好的折中。
三、B树的查询效率与键在树中的位置有关，最大时间复杂度与B+树相同(在叶结点的时候)，最小时间复杂度为1(在根结点的时候)。而B+树的时候复杂度对某建成的树是固定的。

六、B/+Tree索引的性能分析

到这里终于能够分析B-/+Tree索引的性能了。上文说过通常使用磁盘I/O次数评价索引结构的优劣。先从B-Tree分析，根据B-Tree的定义，可知检索一次最多须要访问h个节点。数据库系统的设计者巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每一个节点只须要一次I/O就能够彻底载入。为了达到这个目的，在实际实现B-Tree还须要使用以下技巧：

每次新建节点时，直接申请一个页的空间，这样就保证一个节点物理上也存储在一个页里，加之计算机存储分配都是按页对齐的，就实现了一个node只需一次I/O。
B-Tree中一次检索最多须要h-1次I/O（根节点常驻内存），渐进复杂度为O(h)=O(log_dN)。通常实际应用中，出度d是很是大的数字，一般超过100，所以h很是小（一般不超过3）。
而红黑树这种结构，h明显要深的多。因为逻辑上很近的节点（父子）物理上可能很远，没法利用局部性，因此红黑树的I/O渐进复杂度也为O(h)，效率明显比B-Tree差不少。

综上所述，用B-Tree做为索引结构效率是很是高的。

参考：数据库索引的实现原理

做者：悠扬的牧笛

博客地址：http://www.cnblogs.com/xhb-bky-blog/p/6373125.html

声明：本博客原创文字只表明本人工做中在某一时间内总结的观点或结论，与本人所在单位没有直接利益关系。非商业，未受权贴子请以现状保留，转载时必须保留此段声明，且在文章页面明显位置给出原文链接。