Mysq数据库索引（B-Tree索引）

时间 2020-06-18

标签 mysq 数据库索引 tree 栏目 SQL 繁體版

原文原文链接

1、B-Tree索引的底层结构

全部的值都是按顺序存储的，而且每个叶子页到根的距离相同，如图所示，B-Tree索引的底层数据结构通常是B+树，反应了MyISAM索引是如何工做的。

2、B-Tree索引的使用规则

B-Tree索引适用于全键值、键值范围和键前缀查找，其中键前缀查找只适用于根据最左前缀查找。B-Tree索引支持的查询原则以下所示：

全值匹配：全值匹配指的是和索引中的全部列进行匹配。

匹配最左前缀：前边提到的索引能够用于查找全部姓Allen的人，即只使用索引中的第一列。

匹配列前缀：也能够只匹配某一列的值的开头部分。例如前面提到的索引可用于查找全部以J开头的姓的人。这里也只用到了索引的第一列。

匹配范围值：例如前边提到的索引可用于查找姓在Allen和Barrymore之间的人。这里也只使用了索引的第一列。

精确匹配某一列并范围匹配另一列：前边提到的索引也可用于查找全部姓为Allen，而且名字是字母K开头(好比Kim,Karl等)的人。即第一列last_name全匹配，第二列first_name范围匹配。

由于索引树的节点是有序的，因此除了按值查找以外，索引还能够用于查询中的ORDER BY操做(按顺序查找)，若是ORDER BY子句知足前面列出的几种查询类型，则这个索引也能够知足对应的排序需求。

下面是一些关于B-Tree索引的限制：

若是不是按照索引的最左列开始查找，则没法使用索引。例如上面例子中的索引没法查找名字为Bill的人，也没法查找某个特定生日的日，由于这两列都不是最左数据列。

若是查询中有某个列的范围查询，则其右侧全部列都没法使用索引优化查找。

3、聚簇索引

聚簇索引并非一种单独的索引类型，而是一种数据存储方式。具体的细节依赖于其实现方式，可是InnoDB的聚簇索引实际上在同一个结构中保存了B-Tree索引和数据行。

当表有聚簇索引时，它的数据行实际上存放在索引的叶子页中，这也就是说数据行和相邻的键值紧凑地存储在一块儿。

下图展现了聚簇索引中的记录是如何存放的。注意到，叶子页包含了行的所有数据行，可是节点页只包含了索引列。

聚簇索引可能对性能有帮助，但也可能致使严重的性能问题。

聚簇索引的优势：

数据访问更快，聚簇索引将索引和数据保存在同一个B-Tree中，所以从聚簇索引中获取数据一般比在非聚簇索引中查找要快。

使用覆盖索引扫描的查询能够直接使用页节点中的主键值。

聚簇索引的缺点：

插入顺序严重依赖插入顺序。按照主键的顺序插入是向InnoDB表中插入数据速度最快的方式，须要避免主键键值随机的(不连续且值得分布范围很是大)聚簇索引，好比使用UUID做为主键，而应该使用相似AUTO_INCREMENT的自增列。

更新聚簇索引列的代价很高，由于会强制InnoDB将每一个被更新的行移动位置到新的位置。

基于聚簇索引的表在插入新行，或者主键被更新致使须要移动行时，可能面临“页分裂”的问题。当行的主键值要求必须将这行插入到某个已满的页中时，存储引擎会将该页分裂成两个页面来容纳该行，这就是一次页分裂操做。页分裂会致使表占用更多的磁盘空间。

二级索引可能比想象的更大，由于在二级索引中的叶节点包含了引用行的主键列。

二级索引访问须要两次索引查找，而不是一次。

4、InnoDB和MyISAM引擎索引的差别

聚簇索引和非聚簇索引的数据分布有区别，以及对应的主键索引和二级索引的数据分布也有区别，一般会让人感到困惑和意外。下图展现了MyISAM和InnoDB的不一样索引和数据存储方式。

MyISAM的数据分布很是简单，按照数据插入的顺序存储在磁盘上，主键索引和二级索引的叶节点存储着指针，指向对应的数据行。

InnoDB中，聚簇索引“就是”表，因此不会像MyISAM那样须要独立的行存储。聚簇索引的每一个叶节点都包含了主键值和全部的剩余列(在此例中是col2)。

InnoDB的二级索引和聚簇索引很不一样。InnoDB二级索引的叶节点中存储的不是“行指针”，而是主键值，并以此做为指向行的“指针”。

5、松散索引

MySQL并不支持松散索引扫描，也就是没法按照不连续的方式扫描一个索引。一般，MySQL的索引扫描须要先定义一个起点和终点，即便须要的数据只是这段索引中不多数的几个，MySQL仍然须要扫描这段索引中的每一个条目。

下面，咱们经过一个示例说明这点，假设咱们有以下索引(a,b)，有下面的查询：

由于索引的前导字段是列a，可是在查询中只指定了字段b，MySQL没法使用这个索引，从而只能经过全表扫描找到匹配的行，以下图所示。

了解索引的物理结构的话，不难发现还能够有一个更快的办法执行上面的查询。索引的物理结构(不是存储引擎的API)是的能够先扫描a列第一个值对应的b列的范围，而后再跳到a列第二个不一样值扫描对应的b列的范围。下图展现了若是由MySQL来实现这个过程会怎样。

注意到，这时就无须再使用WHERE子句过滤，由于松散索引扫描已经跳过了全部不须要的记录。

MySQL 5.0以后的版本，在某些特殊的场景下是可使用松散索引扫描的，例如，在一个分组查询中须要找到分组的最大值和最小值：

在EXPLAIN中的Extra字段显示"Using index for group-by"，表示这里将使用松散索引扫描。

6、覆盖索引

索引除了是一种查找数据的高效方式以外，也是一种列数据的直接获取方式。MySQL可使用索引来直接获取列的数据，这样就不须要读取数据行。若是一个索引包含全部须要查询的字段的值，咱们就称之为“覆盖索引”。

覆盖索引是很是有用的工具，可以极大地提升性能。SQL查询只须要扫描索引而无需回表，会带来不少好处：

索引条目数量和大小一般远小于数据行的条目和大小，因此若是只须要读取索引，那么MySQL就会极大地减小数据访问量。

由于索引是按照列顺序存储的，因此对于I/O密集型的范围查找会比随机从磁盘读取每一行数据的I/O要少的多。

因为InnoDB的聚簇索引，覆盖索引对InnoDB表特别有用。InnoDB的二级索引在叶子节点中保存了行的主键，索引若是二级主键可以覆盖查询，则避免对主键索引的第二次查询。

当发起一个被覆盖索引的查询(也叫索引覆盖查询)时，在EXPLAIN的Extra列能够看到"Using Index"的信息。例如，表sakila.inventory有一个多列索引(store_id, film_id)。MySQL若是只须要访问这两列，就可使用这个索引作覆盖索引，以下所示：

参考：

MySQL索引背后的数据结构及算法原理 blog.codinglabs.org

《高性能MySQL》

https://mp.weixin.qq.com/s?__biz=Mzg2NjE5NDQyOA==&mid=2247483790&idx=1&sn=bf573b66517bed97ac63c3869ee6cb8a&scene=21#wechat_redirect