MySQL是目前业界最为流行的关系型数据库之一,而索引的优化也是数据库性能优化的关键之一。因此,充分地了解MySQL索引有助于提高开发人员对MySQL数据库的使用优化能力。
MySQL的索引有不少种类型,能够为不一样的场景提供更好的性能。而B-Tree索引是最为常见的MySQL索引类型,通常谈论MySQL索引时,若是没有特别说明,就是指B-Tree索引。本文就详细讲解一下B-Tree索引的的底层结构,使用原则和特性。
为了节约你的时间,本文的主要内容以下:html
B-Tree索引使用B-Tree来存储数据,固然不一样存储引擎的实现方式不一样。B-Tree一般意味着全部的值都是按顺序存储的,而且每个叶子页到根的距离相同,图1展现了B-Tree索引的抽象表示,由此能够看出MySQL的B-Tree索引的大体工做机制。mysql
B-Tree索引的底层数据结构通常是B+树,其具体数据结构和优点这里就不做详细描述,图1展现了B-树索引的抽象表示,大体反应了MyISAM索引是如何工做的,而InnoDB使用的结构有所不一样。算法
MySQL能够在单独一列上添加B-Tree索引,也能够在多列数据上添加B-Tree索引,多列的数据按照添加索引声明的顺序组合起来,存储在B-Tree的页中。假设有以下数据表:sql
CREATE TABLE People ( last_name varchar(50) not null, first_name varchar(50) not null, birthday date not null, gender enum('m','f') not null key(last_name, first_name, birthday) );
对于表中的每一行数据,索引中包含了last_name,first_name和birthday列的值,图2展现了该索引是如何组织数据的存储的。数据库
B-Tree索引使用B-Tree做为其存储数据的数据结构,其使用的查询规则也由此决定。通常来讲,B-Tree索引适用于全键值、键值范围和键前缀查找,其中键前缀查找只适用于根据最左前缀查找。B-Tree索引支持的查询原则以下所示:性能优化
由于索引树的节点是有序的,因此除了按值查找以外,索引还能够用于查询中的ORDER BY操做(按顺序查找),若是ORDER BY子句知足前面列出的几种查询类型,则这个索引也能够知足对应的排序需求。微信
下面是一些关于B-Tree索引的限制:数据结构
聚簇索引并非一种单独的索引类型,而是一种数据存储方式。具体的细节依赖于其实现方式,可是InnoDB的聚簇索引实际上在同一个结构中保存了B-Tree索引和数据行。工具
当表有聚簇索引时,它的数据行实际上存放在索引的叶子页中,这也就是说数据行和相邻的键值紧凑地存储在一块儿。性能
图3展现了聚簇索引中的记录是如何存放的。注意到,叶子页包含了行的所有数据行,可是节点页只包含了索引列。
聚簇索引可能对性能有帮助,但也可能致使严重的性能问题。聚簇的数据是有一些重要的优势:
若是在设计表和查询时能充分利用上面的优势,那么就能极大地提高性能。同时,聚簇索引也有一些缺点:
聚簇索引和非聚簇索引的数据分布有区别,以及对应的主键索引和二级索引的数据分布也有区别,一般会让人感到困惑和意外。图4展现了MyISAM和InnoDB的不一样索引和数据存储方式。
MyISAM的数据分布很是简单,按照数据插入的顺序存储在磁盘上,主键索引和二级索引的叶节点存储着指针,指向对应的数据行。
InnoDB中,聚簇索引“就是”表,因此不会像MyISAM那样须要独立的行存储。聚簇索引的每一个叶节点都包含了主键值和全部的剩余列(在此例中是col2)。
InnoDB的二级索引和聚簇索引很不一样。InnoDB二级索引的叶节点中存储的不是“行指针”,而是主键值,并以此做为指向行的“指针”。
MySQL并不支持松散索引扫描,也就是没法按照不连续的方式扫描一个索引。一般,MySQL的索引扫描须要先定义一个起点和终点,即便须要的数据只是这段索引中不多数的几个,MySQL仍然须要扫描这段索引中的每一个条目。
下面,咱们经过一个示例说明这点,假设咱们有以下索引(a,b),有下面的查询:
mysql>SELECT * FROM tb1 WHERE b BETWEEN 2 AND 3;
由于索引的前导字段是列a,可是在查询中只指定了字段b,MySQL没法使用这个索引,从而只能经过全表扫描找到匹配的行,如图5所示。
了解索引的物理结构的话,不难发现还能够有一个更快的办法执行上面的查询。索引的物理结构(不是存储引擎的API)是的能够先扫描a列第一个值对应的b列的范围,而后再跳到a列第二个不不一样值扫描对应的b列的范围。图6展现了若是由MySQL来实现这个过程会怎样。
注意到,这时就无须再使用WHERE子句过滤,由于松散索引扫描已经跳过了全部不须要的记录。
MySQL 5.0以后的版本,在某些特殊的场景下是可使用松散索引扫描的,例如,在一个分组查询中须要找到分组的最大值和最小值:
mysql> EXPLAIN SELECT actor_id, MAX(film_id) -> FROM sakila.film.film_actor -> GROUP BY actor_id; ********************************************* 1. row *********************************** id: 1 select_type: SIMPLE table: film_actor type: range possible_keys: NULL key: PRIMARY key_len: 2 ref: NULL rows: 396 Extra: Using index for group-by
在EXPLAIN中的Extra字段显示"Using index for group-by",表示这里将使用松散索引扫描。
索引除了是一种查找数据的高效方式以外,也是一种列数据的直接获取方式。MySQL可使用索引来直接获取列的数据,这样就不须要读取数据行。若是一个索引包含全部须要查询的字段的值,咱们就称之为“覆盖索引”。
覆盖索引是很是有用的工具,可以极大地提升性能。SQL查询只须要扫描索引而无需回表,会带来不少好处:
当发起一个被覆盖索引的查询(也叫索引覆盖查询)时,在EXPLAIN的Extra列能够看到"Using Index"的信息。例如,表sakila.inventory有一个多列索引(store_id, film_id)。MySQL若是只须要访问这两列,就可使用这个索引作覆盖索引,以下所示:
mysql> EXPLAIN SELECT store_id, film_id FROM sakila.inventory *********************************1.row*************************************** id:1 select_type:SIMPLE table:inventory type:index possible_keys:NULL key:idx_store_id_film_id key_len:3 ref:NULL rows:4673 Extra:Using Index
订阅最新文章,欢迎关注个人微信公众号