前大众点评资深研发专家对Mysql索引的解析与底层数据结构的解刨

时间 2019-11-10

标签大众点评资深研发专家 mysql 索引解析底层数据结构栏目 MySQL 繁體版

原文原文链接

1：Mysql索引是什么

mysql索引: 是一种帮助mysql高效的获取数据的数据结构，这些数据结构以某种方式引用数据，这种结构就是索引。可简单理解为排好序的快速查找数据结构。若是要查“mysql”这个单词，咱们确定须要定位到m字母，而后从下往下找到y字母，再找到剩下的sql。java

1.1：索引分类node

单值索引:一个索引包含1个列 create index idx_XX on table(f1) 一个表能够建多个。惟一索引: 索引列的值必须惟一，但容许有空值 create unique index idx_XX on table(f1) 复合索引: 一个索引包含多个列如：create index idx_XX on table(f1,f2，..)mysql

1.2：索引结构程序员

BTree Hash索引 full-text全文索引:面试

1.3：什么状况创建索引算法

主键自动创建惟一索引频繁做为查询条件的字段因该建立索引查询中与其余表关联的字段，外键关系创建索引频繁更新的字段不适合创建索引 where条件里用不到的字段不创建索引单键/复合索引的选择（高并发下倾向复合）查询中排序的字段因创建索引查询中统计或分组字段sql

1.4：什么状况建不创建索引数据库

频繁增删改的表表记录太少数据重复且分布平均的表字段。（重复太多索引意义不大）编程

2：Mysql索引为何要用B+Tree实现

2.1：B+树在数据库索引中的应用数组

目前大部分数据库系统及文件系统都采用B-Tree或其变种B+Tree做为索引结构
1）在数据库索引的应用
在数据库索引的应用中，B+树按照下列方式进行组织：
① 叶结点的组织方式。B+树的查找键是数据文件的主键，且索引是稠密的。也就是说，叶结点中为数据文件的第一个记录设有一个键、指针对，该数据文件能够按主键排序，也能够不按主键排序；数据文件按主键排序，且 B +树是稀疏索引，在叶结点中为数据文件的每个块设有一个键、指针对；数据文件不按键属性排序，且该属性是 B +树的查找键，叶结点中为数据文件里出现的每一个属性K设有一个键、指针对，其中指针执行排序键值为 K的记录中的第一个。
② 非叶结点的组织方式。B+树中的非叶结点造成了叶结点上的一个多级稀疏索引。每一个非叶结点中至少有ceil( m/2 ) 个指针，至多有 m 个指针。
2）B+树索引的插入和删除
①在向数据库中插入新的数据时，同时也须要向数据库索引中插入相应的索引键值，则须要向 B+树中插入新的键值。即上面咱们提到的B-树插入算法。
②当从数据库中删除数据时，同时也须要从数据库索引中删除相应的索引键值，则须要从 B+树中删除该键值。即B-树删除算法

2.2：索引在数据库中的做用

在数据库系统的使用过程中，数据的查询是使用最频繁的一种数据操做。
最基本的查询算法固然是顺序查找（linear search），遍历表而后逐行匹配行值是否等于待查找的关键字，其时间复杂度为O（n）。但时间复杂度为O（n）的算法规模小的表，负载轻的数据库，也能有好的性能。可是数据增大的时候，时间复杂度为O（n）的算法显然是糟糕的，性能就很快降低了。

好在计算机科学的发展提供了不少更优秀的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。若是稍微分析一下会发现，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，可是数据自己的组织结构不可能彻底知足各类数据结构（例如，理论上不可能同时将两列都按顺序进行组织），因此，在数据以外，数据库系统还维护着知足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就能够在这些数据结构上实现高级查找算法。这种数据结构，就是索引。

索引是对数据库表中一个或多个列的值进行排序的结构。与在表中搜索全部的行相比，索引用指针指向存储在表中指定列的数据值，而后根据指定的次序排列这些指针，有助于更快地获取信息。一般情况下，只有当常常查询索引列中的数据时，才须要在表上建立索引。索引将占用磁盘空间，而且影响数据更新的速度。可是在多数状况下，索引所带来的数据检索速度优点大大超过它的不足之处。

2.3：为何使用B-Tree（B+Tree）

1.文件很大，不可能所有存储在内存中，故要存储到磁盘上
2.索引的结构组织要尽可能减小查找过程当中磁盘I/O的存取次数（为何使用B-/+Tree，还跟磁盘存取原理有关。）
3.局部性原理与磁盘预读，预读的长度通常为页（page）的整倍数，（在许多操做系统中，页得大小一般为4k）
4.数据库系统巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每一个节点只须要一次I/O就能够彻底载入，(因为节点中有两个数组，因此地址连续)。而红黑树这种结构，h明显要深的多。因为逻辑上很近的节点（父子）物理上可能很远，没法利用局部性
二叉查找树进化品种的红黑树等数据结构也能够用来实现索引，可是文件系统及数据库系统广泛采用B-/+Tree做为索引结构。

通常来讲，索引自己也很大，不可能所有存储在内存中，所以索引每每以索引文件的形式存储的磁盘上。这样的话，索引查找过程当中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，因此评价一个数据结构做为索引的优劣最重要的指标就是在查找过程当中磁盘I/O操做次数的渐进复杂度。换句话说，索引的结构组织要尽可能减小查找过程当中磁盘I/O的存取次数。为何使用B-/+Tree，还跟磁盘存取原理有关。

局部性原理与磁盘预读

因为存储介质的特性，磁盘自己存取就比主存慢不少，再加上机械运动耗费，磁盘的存取速度每每是主存的几百分分之一，所以为了提升效率，要尽可能减小磁盘I/O。为了达到这个目的，磁盘每每不是严格按需读取，而是每次都会预读，即便只须要一个字节，磁盘也会从这个位置开始，顺序向后读取必定长度的数据放入内存。这样作的理论依据是计算机科学中著名的局部性原理：
当一个数据被用到时，其附近的数据也一般会立刻被使用。
程序运行期间所须要的数据一般比较集中。
因为磁盘顺序读取的效率很高（不须要寻道时间，只需不多的旋转时间），所以对于具备局部性的程序来讲，预读能够提升I/O效率。

预读的长度通常为页（page）的整倍数。页是计算机管理存储器的逻辑块，硬件及操做系统每每将主存和磁盘存储区分割为连续的大小相等的块，每一个存储块称为一页（在许多操做系统中，页得大小一般为4k），主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时，会触发一个缺页异常，此时系统会向磁盘发出读盘信号，磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中，而后异常返回，程序继续运行。
咱们上面分析B-/+Tree检索一次最多须要访问节点：

数据库系统巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每一个节点只须要一次I/O就能够彻底载入。为了达到这个目的，在实际实现B- Tree还须要使用以下技巧：
每次新建节点时，直接申请一个页的空间，这样就保证一个节点物理上也存储在一个页里，加之计算机存储分配都是按页对齐的，就实现了一个node只需一次I/O。
B-Tree中一次检索最多须要h-1次I/O（根节点常驻内存），渐进复杂度为O（h）=O（logmN）。通常实际应用中，m是很是大的数字，一般超过100，所以h很是小（一般不超过3）。
综上所述，用B-Tree做为索引结构效率是很是高的。
而红黑树这种结构，h明显要深的多。因为逻辑上很近的节点（父子）物理上可能很远，没法利用局部性，因此红黑树的I/O渐进复杂度也为O（h），效率明显比B-Tree差不少。

3:Mysql索引如何实现

1）主键索引：
MyISAM引擎使用B+Tree做为索引结构，叶节点的data域存放的是数据记录的地址。下图是MyISAM主键索引的原理图：

这里设表一共有三列，假设咱们以Col1为主键，图myisam1是一个MyISAM表的主索引（Primary key）示意。能够看出MyISAM的索引文件仅仅保存数据记录的地址。

2）辅助索引（Secondary key）

在MyISAM中，主索引和辅助索引（Secondary key）在结构上没有任何区别，只是主索引要求key是惟一的，而辅助索引的key能够重复。若是咱们在Col2上创建一个辅助索引，则此索引的结构以下图所示：

一样也是一颗B+Tree，data域保存数据记录的地址。所以，MyISAM中索引检索的算法为首先按照B+Tree搜索算法搜索索引，若是指定的Key存在，则取出其data域的值，而后以data域的值为地址，读取相应数据记录。
MyISAM的索引方式也叫作“非汇集”的，之因此这么称呼是为了与InnoDB的汇集索引区分。

4：InnoDB索引实现

虽然InnoDB也使用B+Tree做为索引结构，但具体实现方式却与MyISAM大相径庭。
第一个重大区别是InnoDB的数据文件自己就是索引文件。从上文知道，MyISAM索引文件和数据文件是分离的，索引文件仅保存数据记录的地址。而在InnoDB中，表数据文件自己就是按B+Tree组织的一个索引结构，这棵树的叶节点data域保存了完整的数据记录。这个索引的key是数据表的主键，所以InnoDB表数据文件自己就是主索引。

上图是InnoDB主索引（同时也是数据文件）的示意图，能够看到叶节点包含了完整的数据记录。这种索引叫作汇集索引。由于InnoDB的数据文件自己要按主键汇集，因此InnoDB要求表必须有主键（MyISAM能够没有），若是没有显式指定，则MySQL系统会自动选择一个能够惟一标识数据记录的列做为主键，若是不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段做为主键，这个字段长度为6个字节，类型为长整形。

第二个与MyISAM索引的不一样是InnoDB的辅助索引data域存储相应记录主键的值而不是地址。换句话说，InnoDB的全部辅助索引都引用主键做为data域。例如，下图为定义在Col3上的一个辅助索引：

这里以英文字符的ASCII码做为比较准则。汇集索引这种实现方式使得按主键的搜索十分高效，可是辅助索引搜索须要检索两遍索引：首先检索辅助索引得到主键，而后用主键到主索引中检索得到记录。

了解不一样存储引擎的索引实现方式对于正确使用和优化索引都很是有帮助，例如知道了InnoDB的索引实现后，就很容易明白为何不建议使用过长的字段做为主键，由于全部辅助索引都引用主索引，过长的主索引会令辅助索引变得过大。再例如，用非单调的字段做为主键在InnoDB中不是个好主意，由于InnoDB数据文件自己是一颗B+Tree，非单调的主键会形成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整，十分低效，而使用自增字段做为主键则是一个很好的选择。

4：程序员进阶方法

以上是我总结出的Mysql索引底层数据结构剖析，但在此，我还想给你们一种学习方法，让你们不仅仅在理论有所收获，还能在工做实践中收获更多。我推荐的这种方法。

无论你是面对目前流行的技术不知从何下手，须要突破技术瓶颈的能够学。
无论你是在公司待久了，过得很安逸，但跳槽时面试碰壁。须要在短期内进修、跳槽拿高薪的能够学。
无论你是没有工做经验，但基础很是扎实，对java工做机制，经常使用设计思想，经常使用java开发框架掌握熟练的，能够学。（小白就不要学了，先学好基础）
无论你是以为本身很牛B，通常需求都能搞定。可是所学的知识点没有系统化，很难在技术领域继续突破的能够学。

在此我向你们推荐一个交流学习群：575745314 （加群能够学习程序员进阶方法）里面会分享一些资深架构师录制的视频录像：有Spring，MyBatis，Netty源码分析，高并发、高性能、分布式、微服务架构的原理，JVM性能优化这些成为架构师必备的知识体系。还能领取免费的学习资源，目前受益良多
如下是程序员的进阶方法：
1、源码分析

2、分布式架构

3、微服务

4、性能优化

5、团队协做

六：电商实战

七：并发编程