【MySQL索引】Hash索引与B-Tree索引 介绍及区别

【摘要】 php

      这是从《MySQL性能调优与架构设计》第六章摘录的一些知识点。 算法

【主题】 数据库

  • Hash索引
  • B-Tree索引

【内容】 数据结构

1. Hash索引 架构

      Hash 索引结构的特殊性,其检索效率很是高,索引的检索能够一次定位,不像B-Tree 索引须要从根节点到枝节点,最后才能访问到页节点这样屡次的IO访问,因此 Hash 索引的查询效率要远高于 B-Tree 索引。
      可能不少人又有疑问了,既然 Hash 索引的效率要比 B-Tree 高不少,为何你们不都用 Hash 索引而还要使用 B-Tree 索引呢?任何事物都是有两面性的,Hash 索引也同样,虽然 Hash 索引效率高,可是 Hash 索引自己因为其特殊性也带来了不少限制和弊端,主要有如下这些。
性能

 

(1)Hash 索引仅仅能知足"=","IN"和"<=>"查询,不能使用范围查询。
     因为 Hash 索引比较的是进行 Hash 运算以后的 Hash 值,因此它只能用于等值的过滤,不能用于基于范围的过滤,由于通过相应的 Hash 算法处理以后的 Hash 值的大小关系,并不能保证和Hash运算前彻底同样。
ui

(2)Hash 索引没法被用来避免数据的排序操做。
     因为 Hash 索引中存放的是通过 Hash 计算以后的 Hash 值,并且Hash值的大小关系并不必定和 Hash 运算前的键值彻底同样,因此数据库没法利用索引的数据来避免任何排序运算;
spa

(3)Hash 索引不能利用部分索引键查询。
     对于组合索引,Hash 索引在计算 Hash 值的时候是组合索引键合并后再一块儿计算 Hash 值,而不是单独计算 Hash 值,因此经过组合索引的前面一个或几个索引键进行查询的时候,Hash 索引也没法被利用。
架构设计

(4)Hash 索引在任什么时候候都不能避免表扫描。
     前面已经知道,Hash 索引是将索引键经过 Hash 运算以后,将 Hash运算结果的 Hash 值和所对应的行指针信息存放于一个 Hash 表中,因为不一样索引键存在相同 Hash 值,因此即便取知足某个 Hash 键值的数据的记录条数,也没法从 Hash 索引中直接完成查询,仍是要经过访问表中的实际数据进行相应的比较,并获得相应的结果。
设计

(5)Hash 索引遇到大量Hash值相等的状况后性能并不必定就会比B-Tree索引高。
     对于选择性比较低的索引键,若是建立 Hash 索引,那么将会存在大量记录指针信息存于同一个 Hash 值相关联。这样要定位某一条记录时就会很是麻烦,会浪费屡次表数据的访问,而形成总体性能低下。

 

2. B-Tree索引

      B-Tree 索引是 MySQL 数据库中使用最为频繁的索引类型,除了 Archive 存储引擎以外的其余全部的存储引擎都支持 B-Tree 索引。不只仅在 MySQL 中是如此,实际上在其余的不少数据库管理系统中B-Tree 索引也一样是做为最主要的索引类型,这主要是由于 B-Tree 索引的存储结构在数据库的数据检
索中有很是优异的表现。
      通常来讲, MySQL 中的 B-Tree 索引的物理文件大多都是以 Balance Tree 的结构来存储的,也就 是全部实际须要的数据都存放于 Tree 的 Leaf Node ,并且到任何一个 Leaf Node 的最短路径的长度都是彻底相同的,因此咱们你们都称之为 B-Tree 索引固然,可能各类数据库(或 MySQL 的各类存储引擎)在存放本身的 B-Tree 索引的时候会对存储结构稍做改造。如 Innodb 存储引擎的 B-Tree 索引实际使用的存储结构其实是 B+Tree ,也就是在 B-Tree 数据结构的基础上作了很小的改造,在每个
Leaf Node 上面出了存放索引键的相关信息以外,还存储了指向与该 Leaf Node 相邻的后一个 LeafNode 的指针信息,这主要是为了加快检索多个相邻 Leaf Node 的效率考虑。
      在 Innodb 存储引擎中,存在两种不一样形式的索引,一种是 Cluster 形式的主键索引( Primary Key ),另一种则是和其余存储引擎(如 MyISAM 存储引擎)存放形式基本相同的普通 B-Tree 索引,这种索引在 Innodb 存储引擎中被称为 Secondary Index 。下面咱们经过图示来针对这两种索引的存放
形式作一个比较。

QQ截图未命名

      图示中左边为 Clustered 形式存放的 Primary Key ,右侧则为普通的 B-Tree 索引。两种 Root Node 和 Branch Nodes 方面都仍是彻底同样的。而 Leaf Nodes 就出现差别了。在 Prim中, Leaf Nodes 存放的是表的实际数据,不只仅包括主键字段的数据,还包括其余字段的数据据以主键值有序的排列。而 Secondary Index 则和其余普通的 B-Tree 索引没有太大的差别,Leaf Nodes 出了存放索引键 的相关信息外,还存放了 Innodb 的主键值。

      因此,在 Innodb 中若是经过主键来访问数据效率是很是高的,而若是是经过 Secondary Index 来访问数据的话, Innodb 首先经过 Secondary Index 的相关信息,经过相应的索引键检索到 Leaf Node以后,须要再经过 Leaf Node 中存放的主键值再经过主键索引来获取相应的数据行。MyISAM 存储引擎的主键索引和非主键索引差异很小,只不过是主键索引的索引键是一个惟一且非空 的键而已。并且 MyISAM 存储引擎的索引和 Innodb 的 Secondary Index 的存储结构也基本相同,主要的区别只是 MyISAM 存储引擎在 Leaf Nodes 上面出了存放索引键信息以外,再存放能直接定位到 MyISAM 数据文件中相应的数据行的信息(如 Row Number ),但并不会存放主键的键值信息。

相关文章
相关标签/搜索