mysql索引原理及优化（二）

时间 2019-11-12

标签 mysql 索引原理优化栏目 MySQL 繁體版

原文原文链接

索引原理分析：数据结构

索引是最多见的慢查询优化方式
其是一种优化查询的数据结构，MySql中的索引是用B+树实现，而B+树就是一种数据结构，能够优化查询速度，能够利用索引快速查找数据，优化查询。算法

能够提升查询速度的数据结构：
哈希表、彻底平衡二叉树、B树、B+树等等。
哈希：select* from sanguo where name>'周瑜哈希表的特色是能够快速的精确查询，可是不支持范围查询。
彻底平衡二叉树：对于数据量大状况，它相比于哈希或者B树、B+树须要查找次数更多。
B树：比彻底平衡二叉树要矮，查询速度更快，所需索引空间更小。
B+树：B+树比B树要胖，B+树的非叶子节点会冗余一份在叶子节点中，而且也在叶子节点会用指针相连。
B树相比彻底平衡二叉树查询次数更少，即有更少的磁盘IO次数，性能更优；
B+树是B树的升级版，其为了提升范围查找的效率。

sql

总结：Mysql选用B+树这种数据结构做为索引，能够提升查询索引时的磁盘IO效率，而且能够提升范围查询的效率，而且B+树里的元素也是有序的。数组

索引的最左前缀原则：当创建多个字段联合索引时，如（a,b,c）查询条件只会走三类索引即 a 、 ab 、 abc， ac也走，可是只走a索引。数据结构

为何哈希表、彻底平衡二叉树、B树、B+树均可以优化查询，为什么Mysql独独喜欢B+树？

哈希表有什么特色？

假若有这么一张表(表名：sanguo)：性能

如今对 name 字段创建哈希索引：优化

注意字段值所对应的数组下标是哈希算法随机算出来的，因此可能出现哈希冲突。那么对于这样一个索引结构，如今来执行下面的sql语句： spa

select * from sanguo where name='周瑜'

能够直接对‘周瑜’按哈希算法算出来一个数组下标，而后能够直接从数据中取出数据并拿到所对应那一行数据的地址，进而查询那一行数据。那么若是如今执行下面的sql语句：操作系统

select * from sanguo where name>'周瑜'

则无能为力，由于哈希表的特色就是能够快速的精确查询，可是不支持范围查询。指针

若是用彻底平衡二叉树呢？

仍是上面的表数据用彻底平衡二叉树表示以下图（为了简单，数据对应的地址就不画在图中了。）：code

图中的每个节点实际上应该有四部分：

左指针，指向左子树
键值
键值所对应的数据的存储地址
右指针，指向右子树

另外须要提醒的是，二叉树是有顺序的，简单的说就是“左边的小于右边的”假如咱们如今来查找‘周瑜’，须要找2次（第一次曹操，第二次周瑜），比哈希表要多一次。

并且因为彻底平衡二叉树是有序的，因此也是支持范围查找的。

若是用B树呢？

仍是上面的表数据用B树表示以下图（为了简单，数据对应的地址就不画在图中了。）：

能够发现一样的元素，B树的表示要比彻底平衡二叉树要“矮”，缘由在于B树中的一个节点能够存储多个元素。

若是用B+树呢？

仍是上面的表数据用B+树表示以下图（为了简单，数据对应的地址就不画在图中了。）：

咱们能够发现一样的元素，B+树的表示要比B树要“胖”，缘由在于B+树中的非叶子节点会冗余一份在叶子节点中，而且叶子节点之间用指针相连。

那么B+树到底有什么优点呢？

这里咱们用“反证法”，假如咱们如今就用彻底平衡二叉树做为索引的数据结构，咱们来看一下有什么不妥的地方。实际上，索引也是很“大”的，由于索引也是存储元素的，咱们的一个表的数据行数越多，那么对应的索引文件其实也是会很大的，实际上也是须要存储在磁盘中的，而不能所有都放在内存中，因此咱们在考虑选用哪一种数据结构时，咱们能够换一个角度思考，哪一个数据结构更适合从磁盘中读取数据，或者哪一个数据结构可以提升磁盘的IO效率。回头看一下彻底平衡二叉树，当咱们须要查询“张飞”时，须要如下步骤：

从磁盘中取出“曹操”到内存，CPU从内存取出数据进行比较，“张飞”<“曹操”，取左子树（产生了一次磁盘IO）
从磁盘中取出“周瑜”到内存，CPU从内存取出数据进行比较，“张飞”>“周瑜”，取右子树（产生了一次磁盘IO）
从磁盘中取出“孙权”到内存，CPU从内存取出数据进行比较，“张飞”>“孙权”，取右子树（产生了一次磁盘IO）
从磁盘中取出“黄忠”到内存，CPU从内存取出数据进行比较，“张飞”=“张飞”，找到结果（产生了一次磁盘IO）

从上面能够发现：彻底平衡二叉树，当咱们须要查询“张飞”时须要4次磁盘IO，也就是4次从磁盘中取出数据（磁盘块）到内存

同理，回头看一下B树，咱们发现只发送三次磁盘IO就能够找到“张飞”了，这就是B树的优势：一个节点能够存储多个元素，相对于彻底平衡二叉树因此整棵树的高度就下降了，磁盘IO效率提升了。

而B+树是B树的升级版，只是把非叶子节点冗余一下，这么作的好处是为了提升范围查找的效率。

Mysql中MyISAM和innodb 的B+树结构以下图：

一般咱们认为B+树的非叶子节点不存储数据，只有叶子节点才存储数据；而B树的非叶子和叶子节点都会存储数据，会致使非叶子节点存储的索引值会更少，树的高度相对会比B+树高，平均的I/O效率会比较低，因此使用B+树做为索引的数据结构，再加上B+树的叶子节点之间会有指针相连，也方便进行范围查找。上图的data区域两个存储引擎会有不一样。

那么，一个B+树的节点中到底存多少个元素合适呢？

其实也能够换个角度来思考B+树中一个节点到底多大合适？

答案是：B+树中一个节点为一页或页的倍数最为合适。由于若是一个节点的大小小于1页，那么读取这个节点的时候其实也会读出1页，形成资源的浪费；若是一个节点的大小大于1页，好比1.2页，那么读取这个节点的时候会读出2页，也会形成资源的浪费；因此为了避免形成浪费，因此最后把一个节点的大小控制在1页、2页、3页、4页等倍数页大小最为合适。

那么，Mysql中B+树的一个节点大小为多大呢？
这个问题的答案是“1页”，这里说的“页”是Mysql自定义的单位（其实和操做系统相似），Mysql的Innodb引擎中一页的默认大小是16k（若是操做系统中一页大小是4k，那么Mysql中1页=操做系统中4页），可使用命令SHOW GLOBAL STATUS like 'Innodb_page_size'; 查看。

对着上面Mysql中Innodb中对B+树的实际应用（主要看主键索引），能够发现B+树中的一个节点存储的内容是：

非叶子节点：主键+指针

叶子节点：数据

那么，假设咱们一行数据大小为1K，那么一页就能存16条数据，也就是一个叶子节点能存16条数据；再看非叶子节点，假设主键ID为bigint类型，那么长度为8B，指针大小在Innodb源码中为6B，一共就是14B，那么一页里就能够存储16K/14=1170个(主键+指针)，那么一颗高度为2的B+树能存储的数据为：117016=18720条，一颗高度为3的B+树能存储的数据为：11701170*16=21902400（千万级条）。因此在InnoDB中B+树高度通常为1-3层，它就能知足千万级的数据存储。在查找数据时一次页的查找表明一次IO，因此经过主键索引查询一般只须要1-3次IO操做便可查找到数据。因此也就回答了咱们的问题，1页=16k这么设置是比较合适的，是适用大多数的企业的，固然这个值是能够修改的，因此也能根据业务的时间状况进行调整。