联表查询时始终以小结果集驱动大结果集

时间 2020-05-19

标签查询始终结果驱动繁體版

原文原文链接

写在前面的话

不要求每一个人必定理解联表查询(join/left join/inner join等)时的mysql运算过程；mysql

不要求每一个人必定知道线上（如今或将来）哪张表数据量大，哪张表数据量小；算法

但要常常使用explain查看执行计划，这是一种美德！sql

联表查询的基础知识

下面两个查询，它们只差了一个order by，效果却迥然不一样。app

第一个查询：oop

EXPLAIN extended SELECT ads.id FROM ads, city WHERE city.city_id = 8005

   AND ads.status = 'online'

   AND city.ads_id=ads.id ORDER BY ads.id desc

执行计划为：优化

id  select_type  table   type    possible_keys   key key_len ref rows filtered Extra ------ ----------- ------ ------ -------------- ------- ------- -------------------- ------ -------- -------------------------------
 1  SIMPLE       city    ref     ads_id,city_id  city_id  4        const                   2838    100.00  Using temporary; Using filesort 1  SIMPLE       ads     eq_ref  PRIMARY         PRIMARY  4        city.ads_id       1    100.00  Using where

第二个查询：ui

EXPLAIN extended SELECT ads.id FROM ads,city WHERE city.city_id =8005

   AND ads.status = 'online'

   AND city.ads_id=ads.id ORDER BY city.ads_id desc

执行计划里没有了using temporary：spa

id  select_type  table   type    possible_keys   key key_len ref rows filtered Extra ------ ----------- ------ ------ -------------- ------- ------- -------------------- ------ -------- ---------------------------
  1  SIMPLE       city    ref     ads_id,city_id  city_id  4        const                   2838    100.00  Using where; Using filesort 1  SIMPLE       ads    eq_ref  PRIMARY         PRIMARY  4        city.ads_id       1    100.00  Using where

为何第一个查询using temporary，第二个查询不用临时表呢？

DBA告诉咱们， MySQL 表关联的算法是 Nest Loop Join，是经过驱动表的结果集做为循环基础数据，而后一条一条地经过该结果集中的数据做为过滤条件到下一个表中查询数据，而后合并结果。

EXPLAIN 结果中，第一行出现的表就是驱动表（Important!）

以上两个查询语句，驱动表都是 city，如上面的执行计划所示！

对驱动表能够直接排序，对非驱动表（的字段排序）须要对循环查询的合并结果（临时表）进行排序（Important!）

所以，order by ads.id desc 时，就要先 using temporary 了！

驱动表的定义

当进行多表链接查询时，驱动表的定义为：
1）指定了联接条件时，知足查询条件的记录行数少的表为驱动表；
2）未指定联接条件时，行数少的表为驱动表（Important!）。

忠告：若是你搞不清楚该让谁作驱动表、谁 join 谁，请让 MySQL 运行时自行判断code

既然未指定联接条件时，行数少的表为驱动表了，并且你也对本身写出的复杂的 Nested Loop Join 不太有把握（以下面的实例所示），那 就别指定谁 left/right join 谁了， 请交给 MySQL优化器运行时决定吧。

小结果集驱动大结果集

咱们优化的目标是尽量减小JOIN中Nested Loop的循环次数，以此保证： 永远用小结果集驱动大结果集 （Important!）！

实例讲解

先了解一下 mb 表有千万级记录，mbei 表要少得多。慢查实例以下：blog

explain SELECT mb.id, …… FROMmb LEFT JOIN mbei ON mb.id=mbei.mb_id INNER JOIN u ON mb.uid=u.uid WHERE 1=1  
ORDER BY mbei.apply_time DESC limit 0,10

够复杂吧。Nested Loop Join 就是这样，以驱动表的结果集做为循环的基础数据，而后将结果集中的数据做为过滤条件一条条地到下一个表中查询数据，最后合并结果；此时还有第三个表，则将前两个表的 Join 结果集做为循环基础数据， 再一次经过循环查询条件到第三个表中查询数据，如此反复。

这条语句的执行计划以下：

id  select_type  table   type    possible_keys   key key_len ref rows Extra ------ ----------- ------ ------ -------------- -------------- ------- ------------------- ------- --------------------------------------------
  1  SIMPLE       mb      index   userid          userid          4        (NULL)               6060455  Using index; Using temporary; Using filesort 1  SIMPLE       mbei    eq_ref  mb_id  mb_id  4        mb.id             1                                              
  1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY         4        mb.uid        1  Using index

因为动用了“LEFT JOIN”，因此攻城狮已经指定了驱动表，虽然这张驱动表的结果集记录数达到百万级！

如何优化？

优化第一步：LEFT JOIN改成JOIN

干吗要 left join 啊？直接 join！

explain SELECT mb.id…… FROM mb JOIN mbei ON mb.id=mbei.mb_id INNER JOIN u ON mb.uid=u.uid WHERE 1=1  
ORDER BY mbei.apply_time DESC limit 0,10

立竿见影，驱动表马上变为小表 mbei 了， Using temporary 消失了，影响行数少多了：

id  select_type  table   type    possible_keys   key key_len ref rows Extra ------ ----------- ------ ------ -------------- ------- ------- ---------------------------- ------ --------------
   1  SIMPLE       mbei    ALL     mb_id  (NULL)   (NULL)   (NULL)                         13383 Using filesort 1  SIMPLE       mb      eq_ref  PRIMARY,userid  PRIMARY  4        mbei.mb_id       1                
   1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY  4        mb.uid                1  Using index

优化第一步之分支1：尽可能不要根据非驱动表的字段排序

left join不变。干吗要根据非驱动表的字段排序呢？咱们前面说过“对驱动表能够直接排序，对非驱动表（的字段排序）须要对循环查询的合并结果（临时表）进行排序！”的。

explain SELECT mb.id…… FROM mb LEFT JOIN mbei ON mb.id=mbei.mb_id INNER JOINu ON mb.uid=u.uid WHERE 1=1  
ORDER BY mb.id DESC limit 0,10

也知足业务场景，作到了rows最小：

id  select_type  table   type    possible_keys   key key_len ref rows Extra ------ ----------- ------ ------ -------------- -------------- ------- ------------------- ------ -----------
  1  SIMPLE       mb      index   userid          PRIMARY         4        (NULL)                   10             
  1  SIMPLE       mbei    eq_ref  mb_id  mb_id  4        mb.id            1  Using index
  1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY         4        mb.uid       1  Using index

优化第二步：去除全部JOIN，让MySQL自行决定！

写这么多密密麻麻的 left join/inner join 很开心吗？

explain SELECT mb.id…… FROM mb,mbei,u  WHERE mb.id=mbei.mb_id and mb.uid=u.user_id
order by mbei.apply_time desc limit 0,10

立竿见影，驱动表同样是小表 mbei：

id  select_type  table   type    possible_keys   key key_len ref rows Extra ------ ----------- ------ ------ -------------- ------- ------- ---------------------------- ------ --------------
  1  SIMPLE       mbei    ALL     mb_id  (NULL)   (NULL)   (NULL)                         13388 Using filesort 1  SIMPLE       mb      eq_ref  PRIMARY,userid  PRIMARY  4        mbei.mb_id       1                
  1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY  4        mb.uid                1  Using index

总结

不要过于相信你的运气！

不要相信你的开发环境里SQL的执行速度！

请拿起 explain 武器，

若是你看到如下现象，请优化：

出现了Using temporary；
rows过多，或者几乎是全表的记录数；
key 是 (NULL)；
possible_keys 出现过多（待选）索引。