【PHP】你知道MySQL索引为何要选择B+树呢

声明

本文所述的各类数据结构(二叉树等),均不考虑重复值的状况,本文简述各类数据结构的区别仅仅只是为了理解MySQL索引的须要而作的铺垫。mysql

什么是索引

提起索引,你们都知道,创建索引可让数据库查询更快,那么索引到底是什么?我想这就不是每一个人都能说得出来了。laravel

索引,是数据库管理系统中一个排序的数据结构,并用以协助快速查询、 更新数据库表中数据。sql

是的,索引是一种数据结构,可是那么多的数据结构中为什么MySQL要选择B+树呢?接下来就让咱们一块儿来了解下B+树相对于其余数据结构有何独特之处!shell

首先让咱们本身想想,若是让咱们去设计,咱们会怎么去存储?我想大部分人想到就是用链表或者数组去存储数据,而后再按默认的顺序排好,再去查找,而一个排好顺序的链表咱们就能够经过二分查找法来高效查询。数据库

二分查找也称折半查找,是一种效率较高的查找方法。好比有1-10十个数,咱们要找到8,先从中间开始找5,而后发现8比5大,能够把5左边的数去掉,剩下6-10,再从中间开始找,依次类推,直到找到8为止。可是这种查找法有一个前提是数据必须是有序的,并且这种属于链表式的存储,咱们一但要插入或者修改一个数据,可能会伴随着大量的下标移动,好比咱们把1-10放在数组里面,下标分别对应0-9,而后如今要插入一个0,为了保证有序,0必须排在第一位,那么1-10全部的数据下标都要日后移动一位,这种就有点大动干戈了,因此为了解决这个问题,咱们就有了二叉树。数组

二叉查找树(BST)

二叉查找树简称二叉树(BST),英文全称:Binary Search Tree,这是一种什么样的数据结构呢?请看下图服务器

在这里插入图片描述

在上面这棵树中,咱们要找到8,先从根节点6开始比较,发现8比6大,就往右边走,就能够找到8数据结构

二叉树的特色

二叉树有两个特色:架构

一、左子树全部的节点都小于父节点并发

二、右子树全部的节点都大于父节点

二叉树存在的问题

二叉树有一个严重的问题,那就是它的查找耗时是和这棵树的深度相关的,在最坏的状况下时间复杂度会退化成 O(n)。

以下图:

在这里插入图片描述

上面就是一种极端状况下的二叉树,会退化成线性链表,这种若是要找到最后一个数6,就要从1开始遍历完整棵树,效率就会很是低。那么有没有一种相对平衡一点,不要出现这种极端状况的数据结构呢,因此就有了平衡二叉树。

平衡二叉树(AVL Tree)

平衡二叉树,英文全名叫作 Balanced binary search trees,简称AVL树,这个AVL并非英文名的简称,而是发明者(G. M. Adelson-Velsky和E. M. Landis)两我的的人名缩写,请看下图一个平衡二叉树示例:

在这里插入图片描述

上图中也是从1开始插入6,若是是二叉树就会变成一种线性结构,可是平衡二叉树就会经过左旋和右旋操做,最终会生成上图所示的结构,感兴趣的能够进入网站本身操做观察旋转过程.

平衡二叉树的特色

平衡二叉树相比较二叉树具备一个特色就是:左右子树深度差绝对值不能超过 1,固然,平衡二叉树首先是一颗二叉树,只不过经过左旋和右旋实现左右子树深度差不超过1,避免了二叉树的极端状况的出现。

MySQL为什么不选择平衡二叉树

既然平衡二叉树解决了普通二叉树的问题,那么mysql为什么不选择平衡二叉树做为索引呢?

索引须要存储什么

让咱们想想,若是咱们要把索引存起来,那么应该存哪些信息呢,它应该存储三块信息:

  • 索引的值:就是表里面索引列对应的值。

  • 数据的磁盘地址(经过磁盘地址找到当前数据)或者直接存储整条数据。

  • 子节点的引用:咱们须要从根节点往下走,因此须要知道左右子节点的地址。

根据这三点,能够有以下大体的一个简单的结构图:

在这里插入图片描述

上图中数字表示的是索引的值,0x开头的表示磁盘地址,根节点中存了左右节点的引用。

AVL树用来存储索引存在什么问题

咱们知道,页(Page)是 Innodb 存储引擎用于管理数据的最小磁盘单位,页的默认大小为16KB。页也就是上图中的节点,每查询一次节点就须要进行一次IO操做,IO操做是一种很是耗时的操做,不少业务系统的瓶颈都是卡在IO操做上,因此若是咱们须要提升查询效率的办法之一就是减小IO次数,那么问题就来了,AVL树一个节点上只存了一个关键字(索引值)+一个磁盘地址+左右节点的引用,这是远远达不到16KB的,会浪费了大量的空间。

上图中若是咱们要找到6这条数据,须要进行3次IO(获取一个节点就是一个IO操做),若是这棵树很高的话,就会进行大量的IO操做,因此说AVL树存在的最大问题就是空间利用不足,浪费了大量空间,数据量大的时候就会成为一颗瘦高的树。

那么咱们能够怎么改进呢?答案很明显了,那就是每一个磁盘块多存一点东西,也就是说每一个磁盘多存几个关键字,由于关键字越多,路数越多;路数越多,树也就越矮越胖,相应的操做IO次数就会越少。

多路平衡树(Balanced Tree)

多路平衡树简称B树,又称B-树,和AVL树同样,B树在枝节点和叶子节点存储键值、磁盘地址、左右节点引用。请看下图的一个多路平衡树的示例:

在这里插入图片描述

B树的特色

相比较AVL树,B树一个磁盘上能够存多个关键字(值),并且有一个特色就是:

  • 分叉数(路数)永远比关键字数多1。

咱们能够画出以下简图(下图中只画了3路,即两个关键字,实际取决于一页能存储多少个关键字):从上图能够很明显的看出,一样高度的树,B树能存的数据远远大于平衡二叉树。

在这里插入图片描述

B树是如何查找数据的

以上图为例,假如咱们要找key=32这个数字,首先获取到根节点,发现18小于key,因此往右边走,获取到右边的数据,54和76,这时候遵循如下原则:

  • key<54,命中最左边分叉;

  • key=54,直接命中,返回数据;

  • 54<key<76,走中间的一个分叉;

  • key=76,直接命中,返回数据;

  • key>76,命中右边分支;

这里由于key=32,因此走得是第1条,命中左边分支,这时候再去获取左边分支,获取到32和50,比较发现key=32,命中,返回数据。

从上面咱们能够看出B树效率相对于AVL树,在数据量大的状况效率已经提升了不少,那么为何MySQL仍是不选择B树做为索引呢?

那么接下来让咱们先看看改良版的B+树,而后再下结论吧!

B+树

B+树由B树改良而来,属于改良版的多路平衡查找树。

首先让咱们来看看B+树到底长什么样呢:

在这里插入图片描述

对比B+树,咱们能够发现一个很明显的区别就是叶子节点有一个箭头指引并且从左到右是有序的。

InnoDB中使用的B+树相比较于传统B+树,改进以后的B+树具备如下特色

InnoDB中B+树的特色

  • 它的关键字的数量是跟路数相等的。

  • B+树的根节点和枝节点中都不会存储数据,只有叶子节点才存储数据。而搜索到关键字不会直接返回,会到最后一层的叶子节点。

  • B+树的每一个叶子节点增长了一个指向相邻叶子节点的指针,它的最后一个数据会指向下一个叶子节点的第一个数据,造成了一个有序链表的结构。

  • 它是根据左闭右开的区间来检索数据的

按照B+树的特色,咱们能够画出一个存储数据的简图,以下:

在这里插入图片描述

B+树是如何查找数据的

假设咱们如今要找一个key=66,遵循以下步骤:

一、获取到根节点,依据左闭右开有以下区间:[1,28),[28,66),[66,+∞),命中了最后一个区间,虽然66在根节点,可是由于根节点不存储数据,因此是会往下继续搜索右边的节点

二、获取到右边节点,依据左闭右开有以下区间:[66,78),[78,89),[89,+∞),命中左边的范围。

三、获取到第三排倒数第二块磁盘,找到66,返回数据。

B+树相对于B树的改进点

B+树是由B树改进而来的,因此B树能解决的问题,B+树都能解决,那么B+树能解决哪些B树所不能解决的问题呢?

一、扫库、扫表能力更强:若是咱们要对表进行全表扫描,只须要遍历叶子节点就能够 了,不须要遍历整棵B+Tree

二、B+Tree 的磁盘读写能力相对于 B Tree 来讲更强:根节点和枝节点不保存数据区, 因此一个节点能够保存更多的关键字,一次磁盘加载(IO操做)能获取到相对更多的关键字。

三、自然具有排序能力:叶子节点上有下一个数据区的指针,数据造成了链表。

四、效率稳定:B+Tree 永远是在叶子节点拿到数据,因此 IO 次数是稳定的,而B树运气好根节点就拿到数据,运气很差就要到叶子节点才能拿到数据,所花费的时间会有差别。

总结

本文简述了从二叉树到B+树以前的演进过程,并大体讲解了各类数据结构之间的差别以及MySQL为什么最终会选择了B+树来做为索引。

点关注,不迷路

好了各位,以上就是这篇文章的所有内容了,能看到这里的人呀,都是人才。以前说过,PHP方面的技术点不少,也是由于太多了,实在是写不过来,写过来了你们也不会看的太多,因此我这里把它整理成了PDF和文档,若是有须要的能够

点击进入暗号: PHP+「平台」

在这里插入图片描述

在这里插入图片描述


更多学习内容能够访问【对标大厂】精品PHP架构师教程目录大全,只要你能看完保证薪资上升一个台阶(持续更新)

以上内容但愿帮助到你们,不少PHPer在进阶的时候总会遇到一些问题和瓶颈,业务代码写多了没有方向感,不知道该从那里入手去提高,对此我整理了一些资料,包括但不限于:分布式架构、高可扩展、高性能、高并发、服务器性能调优、TP6,laravel,YII2,Redis,Swoole、Swoft、Kafka、Mysql优化、shell脚本、Docker、微服务、Nginx等多个知识点高级进阶干货须要的能够免费分享给你们,须要的能够加入个人 PHP技术交流群

相关文章
相关标签/搜索