在MySQL中,不管是Innodb仍是MyIsam,都使用了B+树做索引结构(这里不考虑hash等其余索引)。本文将从最普通的二叉查找树开始,逐步说明各类树解决的问题以及面临的新问题,从而说明MySQL为何选择B+树做为索引结构。html
1、二叉查找树(BST):不平衡mongodb
5、B+树性能
6、感觉B+树的威力spa
7、总结.net
二叉查找树(BST,Binary Search Tree),也叫二叉排序树,在二叉树的基础上须要知足:任意节点的左子树上全部节点值不大于根节点的值,任意节点的右子树上全部节点值不小于根节点的值。以下是一颗BST(图片来源)。设计
当须要快速查找时,将数据存储在BST是一种常见的选择,由于此时查询时间取决于树高,平均时间复杂度是O(lgn)。然而,BST可能长歪而变得不平衡,以下图所示(图片来源),此时BST退化为链表,时间复杂度退化为O(n)。指针
为了解决这个问题,引入了平衡二叉树。
AVL树是严格的平衡二叉树,全部节点的左右子树高度差不能超过1;AVL树查找、插入和删除在平均和最坏状况下都是O(lgn)。
AVL实现平衡的关键在于旋转操做:插入和删除可能破坏二叉树的平衡,此时须要经过一次或屡次树旋转来从新平衡这个树。当插入数据时,最多只须要1次旋转(单旋转或双旋转);可是当删除数据时,会致使树失衡,AVL须要维护从被删除节点到根节点这条路径上全部节点的平衡,旋转的量级为O(lgn)。
因为旋转的耗时,AVL树在删除数据时效率很低;在删除操做较多时,维护平衡所需的代价可能高于其带来的好处,所以AVL实际使用并不普遍。
与AVL树相比,红黑树并不追求严格的平衡,而是大体的平衡:只是确保从根到叶子的最长的可能路径很少于最短的可能路径的两倍长。从实现来看,红黑树最大的特色是每一个节点都属于两种颜色(红色或黑色)之一,且节点颜色的划分须要知足特定的规则(具体规则略)。红黑树示例以下(图片来源):
与AVL树相比,红黑树的查询效率会有所降低,这是由于树的平衡性变差,高度更高。但红黑树的删除效率大大提升了,由于红黑树同时引入了颜色,当插入或删除数据时,只须要进行O(1)次数的旋转以及变色就能保证基本的平衡,不须要像AVL树进行O(lgn)次数的旋转。总的来讲,红黑树的统计性能高于AVL。
所以,在实际应用中,AVL树的使用相对较少,而红黑树的使用很是普遍。例如,Java中的TreeMap使用红黑树存储排序键值对;Java8中的HashMap使用链表+红黑树解决哈希冲突问题(当冲突节点较少时,使用链表,当冲突节点较多时,使用红黑树)。
对于数据在内存中的状况(如上述的TreeMap和HashMap),红黑树的表现是很是优异的。可是对于数据在磁盘等辅助存储设备中的状况(如MySQL等数据库),红黑树并不擅长,由于红黑树长得仍是过高了。当数据在磁盘中时,磁盘IO会成为最大的性能瓶颈,设计的目标应该是尽可能减小IO次数;而树的高度越高,增删改查所须要的IO次数也越多,会严重影响性能。
B树也称B-树(其中-不是减号),是为磁盘等辅存设备设计的多路平衡查找树,与二叉树相比,B树的每一个非叶节点能够有多个子树。所以,当总节点数量相同时,B树的高度远远小于AVL树和红黑树(B树是一颗“矮胖子”),磁盘IO次数大大减小。
定义B树最重要的概念是阶数(Order),对于一颗m阶B树,须要知足如下条件:
能够看出,B树的定义,主要是对非叶结点的子节点数量和记录数量的限制。
下图是一个3阶B树的例子(图片来源):
B树的优点除了树高小,还有对访问局部性原理的利用。所谓局部性原理,是指当一个数据被使用时,其附近的数据有较大几率在短期内被使用。B树将键相近的数据存储在同一个节点,当访问其中某个数据时,数据库会将该整个节点读到缓存中;当它临近的数据紧接着被访问时,能够直接在缓存中读取,无需进行磁盘IO;换句话说,B树的缓存命中率更高。
B树在数据库中有一些应用,如mongodb的索引使用了B树结构。可是在不少数据库应用中,使用了是B树的变种B+树。
B+树也是多路平衡查找树,其与B树的区别主要在于:
由此,B+树与B树相比,有如下优点:
B+树也存在劣势:因为键会重复出现,所以会占用更多的空间。可是与带来的性能优点相比,空间劣势每每能够接受,所以B+树的在数据库中的使用比B树更加普遍。
前面说到,B树/B+树与红黑树等二叉树相比,最大的优点在于树高更小。实际上,对于Innodb的B+索引来讲,树的高度通常在2-4层。下面来进行一些具体的估算。
树的高度是由阶数决定的,阶数越大树越矮;而阶数的大小又取决于每一个节点能够存储多少条记录。Innodb中每一个节点使用一个页(page),页的大小为16KB,其中元数据只占大约128字节左右(包括文件管理头信息、页面头信息等等),大多数空间都用来存储数据。
对于一颗3层B+树,第一层(根节点)有1个页面,能够存储1000条记录;第二层有1000个页面,能够存储1000*1000条记录;第三层(叶节点)有1000*1000个页面,每一个页面能够存储100条记录,所以能够存储1000*1000*100条记录,即1亿条。而对于二叉树,存储1亿条记录则须要26层左右。
最后,总结一下各类树解决的问题以及面临的新问题:
1) 二叉查找树(BST):解决了排序的基本问题,可是因为没法保证平衡,可能退化为链表;
2) 平衡二叉树(AVL):经过旋转解决了平衡的问题,可是旋转操做效率过低;
3) 红黑树:经过舍弃严格的平衡和引入红黑节点,解决了AVL旋转效率太低的问题,可是在磁盘等场景下,树仍然过高,IO次数太多;
4) B树:经过将二叉树改成多路平衡查找树,解决了树太高的问题;
5) B+树:在B树的基础上,将非叶节点改造为不存储数据的纯索引节点,进一步下降了树的高度;此外将叶节点使用指针链接成链表,范围查询更加高效。
《MySQL技术内幕:InnoDB存储引擎》
《MySQL运维内参》
https://zhuanlan.zhihu.com/p/54102723
https://cloud.tencent.com/developer/article/1425604
https://blog.csdn.net/whoamiyang/article/details/51926985
https://www.jianshu.com/p/37436ed14cc6
https://blog.csdn.net/CrankZ/article/details/83301702
https://www.cnblogs.com/gaochundong/p/btree_and_bplustree.html
创做不易,若是文章对你有帮助,就点个赞、评个论呗~
创做不易,若是文章对你有帮助,就点个赞、评个论呗~
创做不易,若是文章对你有帮助,就点个赞、评个论呗~