为何mysql索引要使用B+树，而不是B树，红黑树

时间 2021-04-01

标签 mysql 程序员面试 sql mongodb 数据库数组数据结构性能学习栏目 MySQL 繁體版

原文原文链接

咱们在MySQL中的数据通常是放在磁盘中的，读取数据的时候确定会有访问磁盘的操做，磁盘中有两个机械运动的部分，分别是盘片旋转和磁臂移动。盘片旋转就是咱们市面上所提到的多少转每分钟，而磁盘移动则是在盘片旋转到指定位置之后，移动磁臂后开始进行数据的读写。那么这就存在一个定位到磁盘中的块的过程，而定位是磁盘的存取中花费时间比较大的一块，毕竟机械运动花费的时候要远远大于电子运动的时间。当大规模数据存储到磁盘中的时候，显然定位是一个很是花费时间的过程，可是咱们能够经过B树进行优化，提升磁盘读取时定位的效率。mysql

为何B类树能够进行优化呢？咱们能够根据B类树的特色，构造一个多阶的B类树，而后在尽可能多的在结点上存储相关的信息，保证层数（树的高度）尽可能的少，以便后面咱们能够更快的找到信息，磁盘的I/O操做也少一些，并且B类树是平衡树，每一个结点到叶子结点的高度都是相同，这也保证了每一个查询是稳定的。程序员

特别地：只有B-树和B+树，这里的B-树是叫B树，不是B减树。没有B减树的。面试

如下摘自【程序员小灰】sql

什么是B树

一个m阶的B树具备以下几个特征：

一、根结点至少有两个子女。二、每一个中间节点都包含k-1个元素和k个孩子，其中 m/2 <= k <= m 三、每个叶子节点都包含k-1个元素，其中 m/2 <= k <= m 四、全部的叶子结点都位于同一层。五、每一个节点中的元素从小到大排列，节点当中k-1个元素正好是k个孩子包含的元素的值域分划。

下面以3阶B树开始学习mongodb

这棵树中，重点看（2,6）节点。该节点有两个元素2和6，又有三个孩子1，（3,5），8。其中1小于元素2，（3,5）在（2，6）之间，8大于（3,5），正好符合上面所列的特征。数据库

B树查询的流程：

好比上面的3阶B树查询数值5。数组

第1次IO:数据结构

第2次IO:性能

第3次IO:学习

第3次内存比较:

总结：每次深度加1就会进行一次磁盘IO的查询，将当前高度的数据加到内存中，再进行数值比较。从中能够看出相比大部分的查询时间是花费在磁盘IO的速度上，因此要想提升性能就是将树的高度足够低，IO次数足够少，这就是B树的优点。

B树添加的流程：

好比树里添加数值4 自顶向下查找4的节点位置，发现4应当插入到节点元素3，5之间

节点3，5已是两元素节点，没法再增长。父亲节点 2， 6 也是两元素节点，也没法再增长。根节点9是单元素节点，能够升级为两元素节点。因而拆分节点3，5与节点2，6，让根节点9升级为两元素节点4，9。节点6独立为根节点的第二个孩子。

从图中能够看到，为了插入一个元素，几乎所有的位置都变化了，这就是B树的自平衡（始终维持多路平衡）。

B树删除的流程：

自顶向下查找元素11的节点位置。

删除11后，节点12只有一个孩子，不符合B树规范。所以找出12,13,15三个节点的中位数13，取代节点12，而节点12自身下移成为第一个孩子。（这个过程称为左旋）

B树应用

主要用于文件系统以及部分数据库索引（MongoDB）而Mysql是用B+树的。

什么是B+树

一个m阶的B+树具备以下几个特征：

一、有k个子树的中间节点包含有k个元素（B树中是k-1个元素），每一个元素不保存数据，只用来索引，全部数据都保存在叶子节点。二、全部的叶子结点中包含了所有元素的信息，及指向含这些元素记录的指针，且叶子结点自己依关键字的大小自小而大顺序连接。三、全部的中间节点元素都同时存在于子节点，在子节点元素中是最大（或最小）元素。

从上图能够发现每个父节点的元素都出如今子节点中，而且是子节点的最大（或最小）

从图中能够看到根节点元素8是字节点2,5,8的最大元素，也是叶子节点6，8的最大元素。根节点15是子节点11,15的最大元素，也是叶子节点13,15的最大元素。

B+树的最大元素始终位于根节点当中。全部叶子节点包含了全量元素信息，而且每个叶子节点都带有指向下一个节点指针，造成了一个有序链表。

B+树查询流程

单个查询：查询某个元素3

第一次磁盘IO：

第二次磁盘IO：

第三次磁盘IO：

这样看起来跟B树没有什么区别。但其实有两点是须要注意的：

一、B+树的中间节点没有卫星数据的。因此一样大小的磁盘页能够容纳更多的节点元素。（这就意味着B+会更加矮胖，查询的IO次数会更少）

B树的卫星数据

B+树的卫星数据

二、B树查找性能是不稳定的（若是要查找的数据分别在根节点和叶子节点，他们的性能就会不一样）。但B+树的每一次都是稳定的，为啥呢，看下面的范围查询。

范围查询：查找到范围的下限（3）

B树的范围查询：

自顶向下，查找到范围的下限（3），最多6条：

中序遍历到元素6：

中序遍历到元素8：

中序遍历到元素9：

中序遍历到元素11，遍历结束：

B+树的范围查询：

自顶向下，查找到范围的下限（3），最多6条：

经过链表指针，遍历到元素6, 8：

经过链表指针，遍历到元素9, 11，遍历结束：

从上面的流程比较，能够得出如下B+树的优点：

1.单一节点存储更多的元素，使得查询的IO次数更少。

2.全部查询都要查找到叶子节点，查询性能稳定。

3.全部叶子节点造成有序链表，便于范围查询。

面试题

问题1：MySQL中存储索引用到的数据结构是B+树，B+树的查询时间跟树的高度有关，是log(n)，若是用hash存储，那么查询时间是O(1)。既然hash比B+树更快，为何mysql用B+树来存储索引呢？

答：1、从内存角度上说，数据库中的索引通常时在磁盘上，数据量大的状况可能没法一次性装入内存，B+树的设计能够容许数据分批加载。

2、从业务场景上说，若是只选择一个数据那确实是hash更快，可是数据库中常常会选中多条这时候因为B+树索引有序，而且又有链表相连，它的查询效率比hash就快不少了。

问题2：为何不用红黑树或者二叉排序树？

答：树的查询时间跟树的高度有关，B+树是一棵多路搜索树能够下降树的高度，提升查找效率

问题3：既然增长树的路数能够下降树的高度，那么无限增长树的路数是否是能够有最优的查找效率？

答：这样会造成一个有序数组，文件系统和数据库的索引都是存在硬盘上的，而且若是数据量大的话，不必定能一次性加载到内存中。有序数组无法一次性加载进内存，这时候B+树的多路存储威力就出来了，能够每次加载B+树的一个结点，而后一步步往下找，

问题4：在内存中，红黑树比B树更优，可是涉及到磁盘操做B树就更优了，那么你能讲讲B+树吗？

B+树是在B树的基础上进行改造，它的数据都在叶子结点，同时叶子结点之间还加了指针造成链表。

下面是一个4路B+树，它的数据都在叶子结点，而且有链表相连。

问题5：为何B+树要这样设计？

答：这个跟它的使用场景有关，B+树在数据库的索引中用得比较多，数据库中select数据，不必定只选一条，不少时候会选中多条，好比按照id进行排序后选100条。若是是多条的话，B树须要作局部的中序遍历，可能要跨层访问。而B+树因为全部数据都在叶子结点不用跨层，同时因为有链表结构，只须要找到首尾，经过链表就能把全部数据取出来了。

好比选出7到19只须要在叶子结点中就能找到。