神奇的 SQL 之 WHERE 条件的提取与应用

开心一刻

  小明:为何中国人结婚非要选一个好日子呢 ?数据库

  楼主:嗯 ? 那确定啊,结完婚以后你还能有好日子吗 ?数据结构

  小明:那结婚时所说的白头到总是真的吗 ?ide

  楼主:这哪能是真的,你看如今,头发还没白就秃了post

  小明:那女生的公主病是怎么回事 ?优化

  楼主:缘由很简单,不是长得丑就是穷ui

  小明:那又漂亮又有钱的呢 ?spa

  楼主:别逗了,那不是公主病,那是真公主 !3d

  小明:那你的是有公主病,仍是真公主 ?netty

  楼主:别闹了,个人在硬盘里code

问题描述

  一条 SQL 在数据库中是如何执行的呢 ?相信不少人都会对这个问题比较感兴趣。可是,感兴趣归感兴趣,你得去追呀,还臆想着她主动到你怀里来 ?

  一条 SQL 在数据库中的生命周期涵盖了 SQL 的词法解析、语法解析、权限检查、查询优化、SQL执行等一系列的步骤,是一个至关复杂的过程,不亚于你追她的艰苦历程,不是只言片语就说的完的。可是,你们先别紧张,上面说的那些了,今天一个也不讲,气不气 ?

  今天和你们一块儿来看一下 SQL 生命周期中比较有意思的一个环节

给定一条 SQL,如何提取其中的 where 条件 ?

where 条件中的每一个子条件,在 SQL 执行的过程当中有分别起着什么样的做用 ?

前提准备

  正式开讲以前了,咱们先来回顾一些内容

  SQL 执行流程

    这是 MySQL 数据库中 SQL 的执行流程,其余数据库应该相似

  关系型数据库中的数据组织

    关系型数据库中,数据组织涉及到两个最基本的结构:表与索引。表中存储的是完整数据记录,分为堆表和聚簇索引表;堆表中全部的记录无序存储,聚簇索引表中全部的记录则是按照记录主键进行排序存储。索引中存储的是完整记录的一个子集,用于加速记录的查询速度,索引的组织形式,通常均为B+树结构

    MySQL 的 InnoDB 采用的是聚簇索引表,数据记录和索引是一块儿存储的,相似以下

    InnoDB 二级索引(非聚簇索引)的结构与汇集索引的结构基本相同,只是叶子节点有些许差异,二级索引的叶子节点存的是索引值 + 主键值,而聚簇索引的叶子节点存的是索引值 + 完整的数据记录,因此经过二级索引查找的过程是先找到该索引值对应的汇集索引的值,而后再经过该聚簇索引值到聚簇索引树上查找对应的完整数据记录,这个过程称为回表!固然也有不须要回表的状况,这里就不展开了

    Oracle、DB二、PostgreSQL,MySQL 的 MyISAM 引擎,采用的是堆表形式来存储数据,索引和数据是分开存储的,相似以下

    堆表结构中的聚簇索引和二级索引基本就没什么区别了,能够简单的认为聚簇索引的结构和二级索引中的惟一索引的结构是同样的

    其实表结构采用何种形式并不重要,由于下面讲的内容在任何表结构中均适用

WHERE 条件的提取

  建表 tbl_test 并初始化数据

create table tbl_test (a int primary key, b int, c int, d int, e varchar(50));
create index idx_bcd on tbl_test(b, c, d);
insert into tbl_test values (4,3,1,1,'a');
insert into tbl_test values (1,1,1,2,'d');
insert into tbl_test values (8,8,7,8,'h');
insert into tbl_test values (2,2,1,2,'g');
insert into tbl_test values (5,2,2,5,'e');
insert into tbl_test values (3,3,2,1,'c');
insert into tbl_test values (7,4,0,5,'b');
insert into tbl_test values (6,5,2,4,'f');
View Code

  假设数据数据结构是堆表形式,那么 idx_bcd 索引的结构图大体以下(聚簇索引不同,类比一下应该能够画出来,我就偷个懒不画了)

  组合索引 idx_bcd 上有 b,c,d 三个字段,不包括 a,e 字段,它是先按照 b 字段排序,b 字段相同,则按照 c 字段排序,以此类推

  针对上表,咱们分析下 SQL:select * from tbl_test where b >= 2 and b < 7 and c > 0 and d != 2 and e != 'a'; 此 SQL 中 WHERE 条件用到了 b,c,d,e 四个字段,而索引 idx_bcd 恰好是创建在 b,c,d 三个字段上,那么走 idx_bcd 索引进行条件过滤应该能提升查询效率,既然走 idx_bcd 索引进行条件过滤,那么咱们来思考下如下几个关键问题

  三个关键问题

    一、上述 SQL,覆盖了 idx_bcd 索引的哪一个范围 ?     

      起始点由 b >= 2,c > 0 决定,因此 2,1,2 是第一个须要检查的索引项

      终止点由 b < 7 决定,因此 8,7,8 是第一个不须要检查的索引项, 8,7,8 后面的也无需检索

    二、范围肯定后,SQL 中还有哪些条件可使用 idx_bcd 索引来过滤 ?

      上面咱们已经确认了范围 2,1,2 ~ 8,7,8 ,那么在这个范围内的每个索引项是否是都知足 WHERE 条件了 ? 很显然不是, 4,0,5 不知足 c > 0 , 2,1,2 不知足 d != 2 ;因此 c,d 列的 where 条件能够经过索引 idx_bcd 来过滤

    三、当 idx_bcd 索引物尽其用后,还有哪些条件是没法经过 idx_bcd 索引过滤的 ?

      这个很明显, e != 'a' 没法在索引 idx_bcd 上进行过滤,由于索引并未包含 e 列;e 列只在堆表上存在,因此须要将已经知足索引查询条件的记录回表,取出对应的完整数据记录,而后看该数据记录中 e 列值是否知足 e != 'a' 条件

  有些小伙伴可能以为上述 WHERE 条件的抽取具备特殊性,不具广泛性,那么咱们抽象出一套放置于全部 SQL 语句皆准的 WHERE 查询条件的提取规则:Index Key (First Key & Last Key),Index Filter,Table Filter,咱们们往下仔细看

  Index Key

    用于肯定 SQL 查询在索引中的连续范围(起始点 + 终止点)的查询条件,被称之为Index Key;因为一个范围,至少包含一个起始条件与一个终止条件,所以 Index Key 也被拆分为 Index First Key 和 Index Last Key,分别用于定位索引查找的起始点以终止点

    Index First Key

    用于肯定索引查询范围的起始点;提取规则:从索引的第一个键值开始,检查其在 where 条件中是否存在,若存在而且条件是 =、>=,则将对应的条件加入Index First Key之中,继续读取索引的下一个键值,使用一样的提取规则;若存在而且条件是 >,则将对应的条件加入 Index First Key 中,同时终止 Index First Key 的提取;若不存在,一样终止 Index First Key 的提取

    针对 SQL:select * from tbl_test where b >= 2 and b < 7 and c > 0 and d != 2 and e != 'a',应用这个提取规则,提取出来的 Index First Key 为 b >= 2, c > 0 ,因为 c 的条件为 >,提取结束

    Index Last Key

    用于肯定索引查询范围的终止点,与 Index First Key 正好相反;提取规则:从索引的第一个键值开始,检查其在 where 条件中是否存在,若存在而且条件是 =、<=,则将对应条件加入到 Index Last Key 中,继续提取索引的下一个键值,使用一样的提取规则;若存在而且条件是 < ,则将条件加入到 Index Last Key 中,同时终止提取;若不存在,一样终止Index Last Key的提取

    针对 SQL:select * from tbl_test where b >= 2 and b < 7 and c > 0 and d != 2 and e != 'a',应用这个提取规则,提取出来的 Index Last Key为 b < 7 ,因为是 < 符号,提取结束

  Index Filter

    在完成 Index Key 的提取以后,咱们根据 where 条件固定了索引的查询范围,那么是否是在范围内的每个索引项都知足 WHERE 条件了 ? 很明显 4,0,5 , 2,1,2 均属于范围中,可是又均不知足SQL 的查询条件

    因此 Index Filter 用于索引范围肯定后,肯定 SQL 中还有哪些条件可使用索引来过滤;提取规则:从索引列的第一列开始,检查其在 where 条件中是否存在,若存在而且 where 条件仅为 =,则跳过第一列继续检查索引下一列,下一索引列采起与索引第一列一样的提取规则;若 where 条件为 >=、>、<、<= 其中的几种,则跳过索引第一列,将其他 where 条件中索引相关列所有加入到 Index Filter 之中;若索引第一列的 where 条件包含 =、>=、>、<、<= 以外的条件,则将此条件以及其他 where 条件中索引相关列所有加入到 Index Filter 之中;若第一列不包含查询条件,则将全部索引相关条件均加入到 Index Filter之中

    针对 SQL:select * from tbl_test where b >= 2 and b < 7 and c > 0 and d != 2 and e != 'a',应用这个提取规则,提取出来的 Index Filter 为 c > 0 and d != 2 ,由于索引第一列只包含 >=、< 两个条件,所以第一列跳过,将余下的 c、d 两列加入到 Index Filter 中,提取结束

  Table Filter

    这个就比较简单了,where 中不能被索引过滤的条件都归为此中;提取规则:全部不属于索引列的查询条件,均归为 Table Filter 之中

    针对 SQL:select * from tbl_test where b >= 2 and b < 7 and c > 0 and d != 2 and e != 'a',应用这个提取规则,那么 Table Filter 就为  e != 'a' 

  是否是有点感受了 ? 相信此刻,你们对 where 条件的提取基本清楚了,但怎么应用了 ?

WHERE 条件的应用

  SQL 语句中的 where 条件,最终都会被提取到 Index Key (First Key & Last Key),Index Filter 与 Table Filter 之中,那么 where 条件的应用,其实就是 Index Key (First Key & Last Key),Index Filter 与Table Filter 的应用

  Index First Key,只是用来定位索引的起始点,所以只在索引第一次Search Path(沿着索引B+树的根节点一直遍历,到索引正确的叶节点位置)时使用,只会判断一次

  Index Last Key,用来定位索引的终止点,所以对于起始点以后读到的每一条索引记录,均须要判断是否知足 Index Last Key,若不知足,则当前查询结束

  Index Filter,用于过滤索引范围中不知足条件的索引项,所以对于索引范围中的每一条索引项,均须要与 Index Filter 进行匹对,若不知足 Index Filter 则直接丢弃,继续读取索引下一条记录

  Table Filter,用于过滤不能被索引过滤的条件,此时的索引项已经知足了 Index First Key 与 Index Last Key 构成的范围,而且知足 Index Filter 的条件,可是索引项没法过滤 Table Filter 中的条件,因此回表读取完整的数据记录,判断完整记录是否知足 Table Filter 中的查询条件,若不知足,跳过当前记录,继续读取索引项的下一条索引项,若知足,则返回记录,此记录知足了 where 的全部条件,能够返回给客户端

总结

  一、SQL 语句中的 where 条件,最终都会被提取到 Index Key (First Key & Last Key),Index Filter 与 Table Filter ,提取规则须要你们好好体会下

  二、数据库中 where 条件的过滤是 one by one(一条一条)的方式进行的,联表查询其实也是 one by one 的方式进行的;虽然咱们在开发中感受到不是 one by one,那实际上是数据库驱动作了处理

  三、Index Key 的提取,须要考虑到间隙锁,避免幻读问题,有兴趣的小伙伴能够去琢磨下

  四、MySQL 5.6 中引入的 Index Condition Pushdown,到底是 Push Down 了什么,从哪 Push Down 到哪 ? 你们能够先去了解下,咱们下篇详细讲解

参考

  SQL中的where条件,在数据库中提取与应用浅析

  MySQL的索引

  MySQL的server层和存储引擎层是如何交互的