转载请注明出处!!!掘金:鸟不拉屎html
本篇文章主要学习了MySQL的索引的数据结构的认识,作一个大概的了解便可。node
在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储数据结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的做用至关于图书的目录,能够根据目录中的页码快速查找到所需的内容。mysql
在MySQL中,存储引擎用相似的方法使用索引,先在索引中找到对应值,而后根据匹配的索引记录找到对应的行。程序员
首先说明下MySQL的索引主要是基于Hash表或者B+树。算法
了解索引就须要从索引常见的数据结构开始了解学习,这里有集中常见的的索引数据结构。sql
二叉树是每一个节点最多只有两个分支(即不存在分支度大于2的节点)的树结构。一般被称之为“左子树”和“右子树”数据库
左子树<父节点<=右子树数组
二叉树的第i层至多有有2^(i-1)个节点,缓存
深度为K的二叉树至多总共有个2^k-1节点(定义根节点所在深度 k0=0),而总计拥有节点数符合的,称为“满二叉树”;数据结构
二叉树一般做为数据结构应用,典型用法是对节点定义一个标记函数,将一些值与每一个节点相关系。这样标记的二叉树就能够实现二叉搜索树和二叉堆,并应用于高效率的搜索和排序。
同时学习数据结构,这里还推荐Data Structure Visualizations进行学习,能够很是直观的看到数据结构容许的过程,一步一步的怎么走的均可以很清晰看获得。
找到其中的Binary Search Trees二叉树
能够直观的看到二叉树的数据插入过程,以下:
能够看到二叉树不适合用做看成索引的,数据量庞大的话,二叉树的层数会很大,查找效率当然也很慢了。
推荐阅读:维基百科-二叉树
是一种自平衡二叉查找树,典型用途是实现关联数组。
红黑树的结构复杂,但它的操做有着良好的最坏状况运行时间,而且在实践中高效:它能够在O(log n)时间内完成查找,插入和删除,这里的n是树中元素的数目。
红黑树遵行如下原则:
下面是一个具体的红黑树的图例:
这些约束确保了红黑树的关键特性:从根到叶子的最长的可能路径很少于最短的可能路径的两倍长。结果是这个树大体上是平衡的。由于操做好比插入、删除和查找某个值的最坏状况时间都要求与树的高度成比例,这个在高度上的理论上限容许红黑树在最坏状况下都是高效的,而不一样于普通的二叉查找树。
要知道为何这些性质确保了这个结果,注意到性质4致使了路径不能有两个毗连的红色节点就足够了。最短的可能路径都是黑色节点,最长的可能路径有交替的红色和黑色节点。由于根据性质5全部最长的路径都有相同数目的黑色节点,这就代表了没有路径能多于任何其余路径的两倍长。
一样在Data Structure Visualizations中选择Red-Black Trees红黑树进行插入操做能够直观的看到红黑树的插入过程
一样红黑树也不适用于MySQL的索引,数据量庞大以后,数层也会变大。
推荐阅读:
因为没法装入内存,则必然依赖磁盘(或SSD)存储。而内存的读写速度是磁盘的成千上万倍(与具体实现有关),所以,核心问题是“如何减小磁盘读写次数”。
首先不考虑页表机制,假设每次读、写都直接穿透到磁盘,那么:
BST
):读/写平均O(log2(n))次;若是树不平衡,则最差读/写O(n)次AVL
):在BST的基础上加入了自平衡算法,读/写最大O(log2(n))次RBT
):另外一种自平衡的查找树,读/写最大O(log2(n))次BST
、AVL
、RBT
很好的将读写次数从O(n)优化到O(log2(n));其中,AVL
和RBT
都比BST
多了自平衡的功能,将读写次数降到最大O(log2(n))。
假设使用自增主键,则主键自己是有序的,树结构的读写次数可以优化到树高,树高越低读写次数越少;自平衡保证了树结构的稳定。若是想进一步优化,能够引入B树
和B+树
。
又称:多路平衡查找树。大多数存储引擎都支持B树索引。b树一般意味着全部的值都是按顺序存储的,而且每个叶子节点到根的距离相同。B树索引可以加快访问数据的速度,由于存储引擎再也不须要进行全表扫描来获取数据。下图就是一颗简单的B树。
在B树中,内部(非叶子)节点能够拥有可变数量的子节点(数量范围预先定义好)。当数据被插入或从一个节点中移除,它的子节点数量发生变化。为了维持在预先设定的数量范围内,内部节点可能会被合并或者分离。
以下图所示:
只演示了插入的过程,其中能够经过delete、find执行删除和查找操做。直观的感觉到B树的执行过程。
每一个节点存储了多个Key和子树,子树与Key按顺序排列。
同二叉搜索树相似,每一个节点存储了多个key和子树,子树与key按顺序排列。
页表的目录是扩展外存+加速磁盘读写,一个页(Page)一般4K(等于磁盘数据块block的大小,见inode与block的分析),操做系统每次以页为单位将内容从磁盘加载到内存(以摊分寻道成本),修改页后,再择期将该页写回磁盘。考虑到页表的良好性质,可使每一个节点的大小约等于一个页(使m很是大),这每次加载的一个页就能完整覆盖一个节点,以便选择下一层子树;对子树同理。对于页表来讲,AVL(或RBT)至关于1个key+2个子树的B树,因为逻辑上相邻的节点,物理上一般不相邻,所以,读入一个4k页,页面内绝大部分空间都将是无效数据。
假设key、子树节点指针均占用4B,则B树节点最大m * (4 + 4) = 8m B
;页面大小4KB。则m = 4 * 1024 / 8m = 512
,一个512叉的B树,1000w的数据,深度最大 log(512/2)(10^7) = 3.02 ~= 4
。对比二叉树如AVL的深度为log(2)(10^7) = 23.25 ~= 24
,相差了5倍以上。震惊!B树索引深度居然如此!
那为何B数这么厉害了,还有B+树的出现呢,必然是解决B树存在的问题
一、为定位行数
二、没法处理范围查询
问题1:为定位行数
数据表的记录有多个字段,仅仅定位到主键是不够的,还须要定位到数据行。有3个方案解决:
方案1直接pass,存储数据行将减小页面中的子树个数,m减少树高增大。
方案2的节点中增长了一个字段,假设是4B的指针,则新的m = 4 * 1024 / 12m = 341.33 ~= 341
,深度最大 log(341/2)(10^7) = 3.14 ~= 4
。
方案3的节点m与深度不变,但时间复杂度变为稳定的O(logm(n))。
方案3能够考虑。
问题2:没法处理范围查询
实际业务中,范围查询的频率很是高,B树只能定位到一个索引位置(可能对应多行),很难处理范围查询。改动较小的是2个方案:
乍一看感受方案1比方案2好——时间复杂度和常数项都同样,方案1还不须要改动。可是别忘了局部性原理,无论节点中存储的是数据行仍是数据行位置,方案2的好处在于,依然能够利用页表和缓存预读下一节点的信息。而方案1则面临节点逻辑相邻、物理分离的缺点。 推荐阅读:
主要变更如上所述:
回顾上一个B树,一个m阶的B树具备以下几个特征:
1.根结点至少有两个子女。
2.每一个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m
3.每个叶子节点都包含k-1个元素,其中 m/2 <= k <= m
4.全部的叶子结点都位于同一层。
5.每一个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。
一个m阶的B+树具备以下几个特征:
1.有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每一个元素不保存数据,只用来索引,全部数据都保存在叶子节点。
2.全部的叶子结点包含了所有元素的信息,及指向含这些元素记录的指针,且叶子结点自己依关键字的大小自小而大顺序连接。
3.全部的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素。
B+树特性总结
B+树是B树的升级版,其有以下特性
一样在Data Structure Visualizations中选择B+ TreesB+树进行插入操做能够直观的看到插入过程
在动图中能够看出,B+树的每个叶子节点都有一个指针指向下一个节点,把全部的叶子节点串在一块儿。索引数据都存储在叶子节点中。
B+树相比于B树,有什么优点呢:
1.单一节点存储更多的元素,使得查询的IO次数更少。
2.全部查询都要查找到叶子节点,查询性能稳定。
3.全部叶子节点造成有序链表,便于范围查询。
总结,B+树相比B树的优点有三:1.IO次数更少;2.查询性能稳定;3.范围查询简便。
推荐阅读:
hash索引基于hash表实现,Hash 索引是将索引键经过 Hash 运算以后,将 Hash运算结果的 Hash 值和所对应的行指针信息存放于一个 Hash 表中。只有精准匹配索引全部列的查询才有效。索引的检索能够一次定位,不像B-Tree索引须要从根节点出发到目标节点。虽然Hash索引很快,远高于B-tree索引,可是也有其弊端。
经过navicat工具查看表设计选项中,从引擎中能够看到MySQL又这么多引擎。具体细分到每一个表,不一样的表引擎能够不同。
新建一张表t_test_myisam,引擎使用MyISAM,查看原文件能够看到有3个文件
能够看到索引和数据是分开的,其中索引文件仅仅保存数据记录的地址,故属于非聚簇索引。
MyISAM引擎使用B+Tree做为索引结构,叶节点的data存放的是数据记录的地址。以下图是MyISAM主键索引的原理图。
其中Col1为主键,能够看出看出MyISAM的索引文件仅保存数据记录的地址。
在Col2上创建一个辅助索引,以下图辅助索引原理图。
能够看到与主键索引没有任何区别,只不过主键索引的key是惟一的,而辅助索引的key能够重复。
MyISAM中索引检索的算法为首先按照B+Tree搜索算法搜索索引,若是指定的Key存在,则取出其data域的值,而后以data域的值为地址,读取相应数据记录。
新建一张表t_test_innodb,引擎使用InnoDB,查看原文件能够看到有2个文件
InnoDB的索引和数据在一个文件当中。
按照B+Tree组织的一个索引结构。
叶节点保存了完整的数据记录和索引。这种索引就叫作聚簇索引。
索引的Key是数据的主键,所以InnoDB表数据文件自己就是主索引。
以下图:
能够看到叶节点包含了完整的数据记录。
由于InnoDB的数据文件自己要按照主键汇集,因此InnoDB要求必须有主键。若是没有显式指定,则MySQL系统会自动选择一个能够惟一标识数据记录的列做为主键,若是不存在这种列,则MySQL自动为InnoDB表生成一个隐含字段rowid做为主键,这个字段长度为6个字节,类型为长整形。
辅助索引,将途中的第二行name,做为索引如图
聚簇索引这种实现方式使得按照主键的搜索十分高效,可是首先检索辅助索引得到主键,而后用主键到主索引中检索得到记录。
因为InnoDB索引的实现特性,推荐使用整形的自增主键。
有三点好处:
m = 4 * 1024 / 54m = 75.85 ~= 76
,深度最大log(76/2)(10^7) = 4.43 ~= 5
,再加上cache缺失、字符串比较的成本,时间成本增长较大。同时,key由4B增加到50B,整棵索引树的空间占用增加也是极为恐怖的(若是二级索引使用主键定位数据行,则空间增加更加严重)。一是主索引的区别:InnoDB的数据文件自己就是索引文件。而MyISAM的索引和数据是分开的。
二是辅助索引的区别:InnoDB的辅助索引data域存储相应记录主键的值而不是地址。而MyISAM的辅助索引和主索引没有多大区别。
InnoDB存储引擎支持覆盖索引,即从辅助索引中就能够获得查询的记录,不须要查询聚簇索引中的记录了。能够减小大量的IO操做。
若是要查询辅助索引中不含有的字段,得先遍历辅助索引,再遍历汇集索引,而若是要查询的字段值在辅助索引上就有,就不用再查汇集索引了,这显然会减小IO操做。
两个或以上的列上的索引。以下图联合索引的原理图:
上图中的联合索引有三个,从上到下,严格按照排序。
索引能够简单如一个列(a),也能够复杂如多个列(a, b, c, d),即联合索引
。若是是联合索引,那么key也由多个列组成,同时,索引只能用于查找key是否存在(相等),遇到范围查询(>、<、between、like左匹配)等就不能进一步匹配了,后续退化为线性查找。所以,列的排列顺序决定了可命中索引的列数。
若有索引(a, b, c, d),查询条件a = 1 and b = 2 and c > 3 and d = 4
,则会在每一个节点依次命中a、b、c,没法命中d。也就是最左前缀匹配原则。
不须要考虑=、in等的顺序,mysql会自动优化这些条件的顺序,以匹配尽量多的索引列。
若有索引(a, b, c, d),查询条件c > 3 and b = 2 and a = 1 and d < 4
与a = 1 and c > 3 and b = 2 and d < 4
等顺序都是能够的,MySQL会自动优化为a = 1 and b = 2 and c > 3 and d < 4
,依次命中a、b、c。
有索引列参与计算的查询条件对索引不友好(甚至没法使用索引),如from_unixtime(create_time) = '2014-05-29'
。
缘由很简单,如何在节点中查找到对应key?若是线性扫描,则每次都须要从新计算,成本过高;若是二分查找,则须要针对from_unixtime方法肯定大小关系。
所以,索引列不能参与计算。上述from_unixtime(create_time) = '2014-05-29'
语句应该写成create_time = unix_timestamp('2014-05-29')
。
若是已有索引(a),想创建索引(a, b),尽可能选择修改索引(a)为索引(a, b)。
新建索引的成本很容易理解。而基于索引(a)修改成索引(a, b)的话,MySQL能够直接在索引a的B+树上,通过分裂、合并等修改成索引(a, b)。
若是已有索引(a, b),则不须要再创建索引(a),可是若是有必要,则仍然需考虑创建索引(b)。