mysql的索引

时间 2019-12-06

标签 mysql 索引栏目 MySQL 繁體版

原文原文链接

索引的本质

MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。提取句子主干，就能够获得索引的本质：索引是数据结构。node

咱们知道，数据库查询是数据库的最主要功能之一。咱们都但愿查询数据的速度能尽量的快，所以数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法固然是顺序查找（linear search），这种复杂度为O(n)的算法在数据量很大时显然是糟糕的，好在计算机科学的发展提供了不少更优秀的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。若是稍微分析一下会发现，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，可是数据自己的组织结构不可能彻底知足各类数据结构（例如，理论上不可能同时将两列都按顺序进行组织），因此，在数据以外，数据库系统还维护着知足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就能够在这些数据结构上实现高级查找算法。这种数据结构，就是索引。算法

看一个例子：数据库

图1数据结构

图1展现了一种可能的索引方式。左边是数据表，一共有两列七条记录，最左边的是数据记录的物理地址（注意逻辑上相邻的记录在磁盘上也并非必定物理相邻的）。为了加快Col2的查找，能够维护一个右边所示的二叉查找树，每一个节点分别包含索引键值和一个指向对应数据记录物理地址的指针，这样就能够运用二叉查找在 $O (l o g_{2} n)$ 性能

$O (l o g_{2} n)$ 虽然这是一个货真价实的索引，可是实际的数据库系统几乎没有使用二叉查找树或其进化品种红黑树（red-black tree）实现的，缘由会在下文介绍。优化

B-/+Tree索引的性能分析

先从B-Tree分析，根据B-Tree的定义，可知检索一次最多须要访问h个节点。数据库系统的设计者巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每一个节点只须要一次I/O就能够彻底载入。为了达到这个目的，在实际实现B-Tree还须要使用以下技巧：spa

每次新建节点时，直接申请一个页的空间，这样就保证一个节点物理上也存储在一个页里，加之计算机存储分配都是按页对齐的，就实现了一个node只需一次I/O。设计

B-Tree中一次检索最多须要h-1次I/O（根节点常驻内存），渐进复杂度为 $O (h) = O (l o g_{d} N)$ 指针

综上所述，用B-Tree做为索引结构效率是很是高的。xml

而红黑树这种结构，h明显要深的多。因为逻辑上很近的节点（父子）物理上可能很远，没法利用局部性，因此红黑树的I/O渐进复杂度也为O(h)，效率明显比B-Tree差不少。

B+Tree更适合外存索引，缘由和内节点出度d有关。从上面分析能够看到，d越大索引的性能越好，而出度的上限取决于节点内key和data的大小： $d_{m a x} = f l o o r (p a g e s i z e / (k e y s i z e + d a t a s i z e + p o i n t s i z e))$ floor表示向下取整。因为B+Tree内节点去掉了data域，所以能够拥有更大的出度，拥有更好的性能。