MySQL Btree 索引背后的数据结构及算法原理

时间 2019-11-06

原文原文链接

索引的本质

MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。提取句子主干，就能够获得索引的本质：索引是数据结构。node

咱们知道，数据库查询是数据库的最主要功能之一。咱们都但愿查询数据的速度能尽量的快，所以数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法固然是顺序查找（linear search），这种复杂度为O(n)的算法在数据量很大时显然是糟糕的，好在计算机科学的发展提供了不少更优秀的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。若是稍微分析一下会发现，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，可是数据自己的组织结构不可能彻底知足各类数据结构（例如，理论上不可能同时将两列都按顺序进行组织），因此，在数据以外，数据库系统还维护着知足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就能够在这些数据结构上实现高级查找算法。这种数据结构，就是索引。算法

看一个例子：数据库

图1数据结构

图1展现了一种可能的索引方式。左边是数据表，一共有两列七条记录，最左边的是数据记录的物理地址（注意逻辑上相邻的记录在磁盘上也并非必定物理相邻的）。为了加快Col2的查找，能够维护一个右边所示的二叉查找树，每一个节点分别包含索引键值和一个指向对应数据记录物理地址的指针，这样就能够运用二叉查找在O(log_2n)的复杂度内获取到相应数据。性能

虽然这是一个货真价实的索引，可是实际的数据库系统几乎没有使用二叉查找树或其进化品种红黑树（red-black tree）实现的，缘由会在下文介绍。优化

B-Tree和B+Tree

目前大部分数据库系统及文件系统都采用B-Tree或其变种B+Tree做为索引结构，在本文的下一节会结合存储器原理及计算机存取原理讨论为何B-Tree和B+Tree在被如此普遍用于索引，这一节先单纯从数据结构角度描述它们。spa

B-Tree

为了描述B-Tree，首先定义一条数据记录为一个二元组[key, data]，key为记录的键值，对于不一样数据记录，key是互不相同的；data为数据记录除key外的数据。那么B-Tree是知足下列条件的数据结构：操作系统

d为大于1的一个正整数，称为B-Tree的度。翻译

h为一个正整数，称为B-Tree的高度。设计

每一个非叶子节点由n-1个key和n个指针组成，其中d<=n<=2d。

每一个叶子节点最少包含一个key和两个指针，最多包含2d-1个key和2d个指针，叶节点的指针均为null 。

全部叶节点具备相同的深度，等于树高h。

key和指针互相间隔，节点两端是指针。

一个节点中的key从左到右非递减排列。

全部节点组成树结构。

每一个指针要么为null，要么指向另一个节点。

若是某个指针在节点node最左边且不为null，则其指向节点的全部key小于v(key_1)，其中v(key_1)为node的第一个key的值。

若是某个指针在节点node最右边且不为null，则其指向节点的全部key大于v(key_m)，其中v(key_m)为node的最后一个key的值。

若是某个指针在节点node的左右相邻key分别是key_i和key_{i+1}且不为null，则其指向节点的全部key小于v(key_{i+1})且大于v(key_i)。

图2是一个d=2的B-Tree示意图。

图2

因为B-Tree的特性，在B-Tree中按key检索数据的算法很是直观：首先从根节点进行二分查找，若是找到则返回对应节点的data，不然对相应区间的指针指向的节点递归进行查找，直到找到节点或找到null指针，前者查找成功，后者查找失败。B-Tree上查找算法的伪代码以下：

BTree_Search(node, key) {
    if(node == null) return null;
    foreach(node.key)
    {
        if(node.key[i] == key) return node.data[i];
            if(node.key[i] > key) return BTree_Search(point[i]->node);
    }
    return BTree_Search(point[i+1]->node);
}
data = BTree_Search(root, my_key);

关于B-Tree有一系列有趣的性质，例如一个度为d的B-Tree，设其索引N个key，则其树高h的上限为\(log_d((N+1)/2)\)，检索一个key，其查找节点个数的渐进复杂度为\(O(log_dN)\)。从这点能够看出，B-Tree是一个很是有效率的索引数据结构。

另外，因为插入删除新的数据记录会破坏B-Tree的性质，所以在插入删除时，须要对树进行一个分裂、合并、转移等操做以保持B-Tree性质，本文不打算完整讨论B-Tree这些内容，由于已经有许多资料详细说明了B-Tree的数学性质及插入删除算法，有兴趣的朋友能够在本文末的参考文献一栏找到相应的资料进行阅读。

B+Tree

B-Tree有许多变种，其中最多见的是B+Tree，例如MySQL就广泛使用B+Tree实现其索引结构。

与B-Tree相比，B+Tree有如下不一样点：

每一个节点的指针上限为2d而不是2d+1。

内节点不存储data，只存储key；叶子节点不存储指针。

图3是一个简单的B+Tree示意。

图3

因为并非全部节点都具备相同的域，所以B+Tree中叶节点和内节点通常大小不一样。这点与B-Tree不一样，虽然B-Tree中不一样节点存放的key和指针可能数量不一致，可是每一个节点的域和上限是一致的，因此在实现中B-Tree每每对每一个节点申请同等大小的空间。

通常来讲，B+Tree比B-Tree更适合实现外存储索引结构，具体缘由与外存储器原理及计算机存取原理有关，将在下面讨论。

带有顺序访问指针的B+Tree

通常在数据库系统或文件系统中使用的B+Tree结构都在经典B+Tree的基础上进行了优化，增长了顺序访问指针。

图4

如图4所示，在B+Tree的每一个叶子节点增长一个指向相邻叶子节点的指针，就造成了带有顺序访问指针的B+Tree。作这个优化的目的是为了提升区间访问的性能，例如图4中若是要查询key为从18到49的全部数据记录，当找到18后，只需顺着节点和指针顺序遍历就能够一次性访问到全部数据节点，极大提到了区间查询效率。

这一节对B-Tree和B+Tree进行了一个简单的介绍，下一节结合存储器存取原理介绍为何目前B+Tree是数据库系统实现索引的首选数据结构。

为何使用B-Tree（B+Tree）

上文说过，红黑树等数据结构也能够用来实现索引，可是文件系统及数据库系统广泛采用B-/+Tree做为索引结构，这一节将结合计算机组成原理相关知识讨论B-/+Tree做为索引的理论基础。

通常来讲，索引自己也很大，不可能所有存储在内存中，所以索引每每以索引文件的形式存储的磁盘上。这样的话，索引查找过程当中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，因此评价一个数据结构做为索引的优劣最重要的指标就是在查找过程当中磁盘I/O操做次数的渐进复杂度。换句话说，索引的结构组织要尽可能减小查找过程当中磁盘I/O的存取次数。下面先介绍内存和磁盘存取原理，而后再结合这些原理分析B-/+Tree做为索引的效率。

主存存取原理

目前计算机使用的主存基本都是随机读写存储器（RAM），现代RAM的结构和存取原理比较复杂，这里本文抛却具体差异，抽象出一个十分简单的存取模型来讲明RAM的工做原理。

图5

从抽象角度看，主存是一系列的存储单元组成的矩阵，每一个存储单元存储固定大小的数据。每一个存储单元有惟一的地址，现代主存的编址规则比较复杂，这里将其简化成一个二维地址：经过一个行地址和一个列地址能够惟必定位到一个存储单元。图5展现了一个4 x 4的主存模型。

主存的存取过程以下：

当系统须要读取主存时，则将地址信号放到地址总线上传给主存，主存读到地址信号后，解析信号并定位到指定存储单元，而后将此存储单元数据放到数据总线上，供其它部件读取。

写主存的过程相似，系统将要写入单元地址和数据分别放在地址总线和数据总线上，主存读取两个总线的内容，作相应的写操做。

这里能够看出，主存存取的时间仅与存取次数呈线性关系，由于不存在机械操做，两次存取的数据的“距离”不会对时间有任何影响，例如，先取A0再取A1和先取A0再取D3的时间消耗是同样的。

磁盘存取原理

上文说过，索引通常以文件形式存储在磁盘上，索引检索须要磁盘I/O操做。与主存不一样，磁盘I/O存在机械运动耗费，所以磁盘I/O的时间消耗是巨大的。

图6是磁盘的总体结构示意图。

图6

一个磁盘由大小相同且同轴的圆形盘片组成，磁盘能够转动（各个磁盘必须同步转动）。在磁盘的一侧有磁头支架，磁头支架固定了一组磁头，每一个磁头负责存取一个磁盘的内容。磁头不能转动，可是能够沿磁盘半径方向运动（实际是斜切向运动），每一个磁头同一时刻也必须是同轴的，即从正上方向下看，全部磁头任什么时候候都是重叠的（不过目前已经有多磁头独立技术，可不受此限制）。

图7是磁盘结构的示意图。

图7

盘片被划分红一系列同心环，圆心是盘片中心，每一个同心环叫作一个磁道，全部半径相同的磁道组成一个柱面。磁道被沿半径线划分红一个个小的段，每一个段叫作一个扇区，每一个扇区是磁盘的最小存储单元。为了简单起见，咱们下面假设磁盘只有一个盘片和一个磁头。

当须要从磁盘读取数据时，系统会将数据逻辑地址传给磁盘，磁盘的控制电路按照寻址逻辑将逻辑地址翻译成物理地址，即肯定要读的数据在哪一个磁道，哪一个扇区。为了读取这个扇区的数据，须要将磁头放到这个扇区上方，为了实现这一点，磁头须要移动对准相应磁道，这个过程叫作寻道，所耗费时间叫作寻道时间，而后磁盘旋转将目标扇区旋转到磁头下，这个过程耗费的时间叫作旋转时间。

局部性原理与磁盘预读

因为存储介质的特性，磁盘自己存取就比主存慢不少，再加上机械运动耗费，磁盘的存取速度每每是主存的几百分分之一，所以为了提升效率，要尽可能减小磁盘I/O。为了达到这个目的，磁盘每每不是严格按需读取，而是每次都会预读，即便只须要一个字节，磁盘也会从这个位置开始，顺序向后读取必定长度的数据放入内存。这样作的理论依据是计算机科学中著名的局部性原理：

当一个数据被用到时，其附近的数据也一般会立刻被使用。

程序运行期间所须要的数据一般比较集中。

因为磁盘顺序读取的效率很高（不须要寻道时间，只需不多的旋转时间），所以对于具备局部性的程序来讲，预读能够提升I/O效率。

预读的长度通常为页（page）的整倍数。页是计算机管理存储器的逻辑块，硬件及操做系统每每将主存和磁盘存储区分割为连续的大小相等的块，每一个存储块称为一页（在许多操做系统中，页得大小一般为4k），主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时，会触发一个缺页异常，此时系统会向磁盘发出读盘信号，磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中，而后异常返回，程序继续运行。

B-/+Tree索引的性能分析

到这里终于能够分析B-/+Tree索引的性能了。

上文说过通常使用磁盘I/O次数评价索引结构的优劣。先从B-Tree分析，根据B-Tree的定义，可知检索一次最多须要访问h个节点。数据库系统的设计者巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每一个节点只须要一次I/O就能够彻底载入。为了达到这个目的，在实际实现B-Tree还须要使用以下技巧：

每次新建节点时，直接申请一个页的空间，这样就保证一个节点物理上也存储在一个页里，加之计算机存储分配都是按页对齐的，就实现了一个node只需一次I/O。

B-Tree中一次检索最多须要h-1次I/O（根节点常驻内存），渐进复杂度为O(h)=O(log_dN)。通常实际应用中，出度d是很是大的数字，一般超过100，所以h很是小（一般不超过3）。

综上所述，用B-Tree做为索引结构效率是很是高的。

而红黑树这种结构，h明显要深的多。因为逻辑上很近的节点（父子）物理上可能很远，没法利用局部性，因此红黑树的I/O渐进复杂度也为O(h)，效率明显比B-Tree差不少。

上文还说过，B+Tree更适合外存索引，缘由和内节点出度d有关。从上面分析能够看到，d越大索引的性能越好，而出度的上限取决于节点内key和data的大小：

d_{max}=floor(pagesize / (keysize + datasize + pointsize))

floor表示向下取整。因为B+Tree内节点去掉了data域，所以能够拥有更大的出度，拥有更好的性能。

这一章从理论角度讨论了与索引相关的数据结构与算法问题，下一章将讨论B+Tree是如何具体实现为MySQL中索引，同时将结合MyISAM和InnDB存储引擎介绍非汇集索引和汇集索引两种不一样的索引实现形式。