内心有点B树

引言

数据库的增删改查等操做是开发过程当中最为常见也是尤其重要的,尤为是如今大数据的兴起,致使数据存储量急剧增长,提高数据的操做效率就变得尤其关键。算法

大部分数据库的索引都采用树的结构存储,这是由于树的查询效率相对较高,且保持有序。数据库

对于二叉搜索树的时间复杂度是O(logN),在算法以及逻辑上来分析,二叉搜索树的查找速度以及数据比较次数都是较小的。性能

可是咱们不得不考虑一个新的问题。大数据

数据量是远大于内存大小的,那咱们在查找数据时并不能将所有数据同时加载至内存。既然不能所有加载至内存中就只能逐步的去加载磁盘中某个页,简而言之就是逐一的去加载磁盘,加数据分块的加载至内存进行查找与比较。设计

例如:在下图所示的树中查找10,树中的每一个节点表明一个磁盘页。每次访问一个新节点表明一次磁盘IO。3d

经过查找过程能够看出,磁盘IO次数与树的高度相关,在最坏状况下,磁盘IO次数等于树的高度。因为磁盘IO过程是相对耗时效率较低的,所以,在设计数据存储结构时须要下降树的高度,即将一棵“瘦高”的树变得“矮胖”。指针

当数据数目相同,在保持有序前提下,下降树高度,只需将节点中存储的key值增长,即二叉搜索树中每一个节点只有一个key,现将一个节点中存储多个key,获得的树即为B树。blog

定义

B树也称B-树,B-树直接读做B树,不能由于有“-”号就读做B减树,它是一颗多路平衡查找树。咱们描述一颗B树时须要指定它的阶数,阶数表示了一个结点最多有多少个孩子结点,通常用字母m表示阶数。当m取2时,就是咱们常见的二叉搜索树,m为3时是2-3树。索引

一颗m阶的B树定义以下:内存

(1)每一个结点最多有m-1个关键字。
(2)根结点最少能够只有1个关键字。
(3)非根结点至少有Math.ceil(m/2)-1个关键字。Math.ceil(m/2)含义是向上取整。例如Math.ceil(4.5) = 5。
(4)每一个结点中的关键字都按照从小到大的顺序排列,每一个关键字的左子树中的全部关键字都小于它,而右子树中的全部关键字都大于它。
(5)全部叶子结点都位于同一层,或者说根结点到每一个叶子结点的长度都相同。

查找

B-树的查找实际上是对二叉搜索树查找的扩展, 与二叉搜索树不一样的地方是,B-树中每一个节点有不止一棵子树。在B-树中查找某个结点时,须要先判断要查找的结点在哪棵子树上,而后在结点中逐个查找目标结点。B树的查找过程相对简单,与二叉搜索树相似,所以再也不赘述。

插入

B树的插入操做是指在树种插入一条新记录,即(key, value)的键值对。若是B树中已存在须要插入的键值对,则用须要插入的value替换旧的value。若B树不存在这个key,则必定是在叶子结点中进行插入操做。

插入流程

B树的插入流程以下:
  (1)根据要插入的key的值,对B树执行查找操做,查找到待插入数据的当前节点位置。
  (2)判断当前结点key的个数是否小于等于m-1,若知足,则结束直接插入数据,不然,进行第(3)步。
  (3)以结点中间的key为中心分裂成左右两部分,而后将这个中间的key插入到父结点中,这个key的左子树指向分裂后的左半部分,这个key的右子支指向分裂后的右半部分,而后将当前结点指向父结点,继续进行第(3)步。

实例图解

下面以5阶B树为例,介绍B树的插入操做,在5阶B树中,结点最多有4个key,最少有2个key。

插入图解:
  1:插入38,此时为空树,直接插入,并做为根节点。继续插入2二、7六、40,符合情形(2),直接插入。继续插入51,符合情形(3),执行分裂。

  2:按照相同的步骤继续插入1三、21。插入39,符合情形(3),致使节点分裂。选择中值22做为父节点,并将22节点上移,与40节点进行合并。

  3:按照一样的插入规则,继续向树中插入key为30、2七、3三、3六、3五、3四、2四、29的数据。插入完成后,继续插入key为26的数据,插入以后须要执行节点分裂。

  4:将key为27的数据节点上移至父节点,此时父节点已经有4个key,插入key27的数据后须要执行节点分裂。在插入key为26的数据后,致使根节点发生分裂,树的高度加1。

性能分析

B树插入过程首先须要执行一次查找操做,B树的查找操做的时间复杂度为O(mlogmn)。其中m为B树的阶数,n为B树中key的数目。在插入过程,最耗时的情形即为:插入数据后致使根节点发生分裂,分裂节点的操做是常数级,分裂操做向上回溯的时间复杂度为O(h)。所以,B树的插入操做的时间复杂度近似于查找操做,即O(mlogmn)。

删除

删除流程

B树的删除流程以下:
  (1)若是当前须要删除的key位于非叶子结点上,则用后继key(这里的后继key均指后继记录的意思)覆盖要删除的key,而后在后继key所在的子支中删除该后继key。此时后继key必定位于叶子结点上,这个过程和二叉搜索树删除结点的方式相似。删除这个记录后执行第2步
  (2)该结点key个数大于等于Math.ceil(m/2)-1,结束删除操做,不然执行第(3)步。
  (3)若是兄弟结点key个数大于Math.ceil(m/2)-1,则父结点中的key下移到该结点,兄弟结点中的一个key上移,删除操做结束。不然,将父结点中的key下移与当前结点及它的兄弟结点中的key合并,造成一个新的结点。原父结点中的key的两个孩子指针就变成了一个孩子指针,指向这个新结点。而后当前结点的指针指向父结点,重复第(2)步。

实例图解

删除图解:
  1:首先删除21,符合情形(2)直接删除。删除21后,继续删除27,符合情形(1),使用后继节点28替代27,并删除28。

  2:删除28后,当前节点只有一个key,所以须要按照情形(3)调整。当前节点的兄弟节点有3个key,父节点中key28下移,兄弟节点中key26上移,调整结束。调整完毕后继续删除32。

  3:删除32后,须要按照情形(3)进行调整,当前节点的兄弟节点只有2个key,则将父节点下移,将当前节点与一个兄弟节点合并,调整完毕。继续删除39,删除39后按照情形(3)进行调整。

  4:当前节点变为只含有key40的节点,须要按照情形(3)继续调整,执行节点的合并,合并操做中包含根节点,致使合并以后的树的高度减1。

5.3 性能分析

B树的删除操做一样须要执行查找过程,时间复杂度为O(mlogmn)。删除数据过程与插入过程相似,最坏状况须要回溯O(h)。所以B树的删除操做的时间复杂度近似为O(mlogmn)。

6 总结

B树是一种平衡的多路查找树。其设计思路主要是经过节点中存储不止一个key,来下降树的高度。同等比较次数下,树的高度小保证磁盘IO次数相对较少,提升查找效率。

END

相关文章
相关标签/搜索