注:这篇文章是以 MySQL 为背景,不少内容同时适用于其余关系型数据库,须要有一些索引知识为基础 mysql
- 优化目标
- 减小 IO 次数
IO永远是数据库最容易瓶颈的地方,这是由数据库的职责所决定的,大部分数据库操做中超过90%的时间都是 IO 操做所占用的,减小 IO 次数是 SQL 优化中须要第一优先考虑,固然,也是收效最明显的优化手段。
- 下降 CPU 计算
除了 IO 瓶颈以外,SQL优化中须要考虑的就是 CPU 运算量的优化了。order by, group by,distinct … 都是消耗 CPU 的大户(这些操做基本上都是 CPU 处理内存中的数据比较运算)。当咱们的 IO 优化作到必定阶段以后,下降 CPU 计算也就成为了咱们 SQL 优化的重要目标
- 优化方法
- 改变 SQL 执行计划
明确了优化目标以后,咱们须要肯定达到咱们目标的方法。对于 SQL 语句来讲,达到上述2个目标的方法其实只有一个,那就是改变 SQL 的执行计划,让他尽可能“少走弯路”,尽可能经过各类“捷径”来找到咱们须要的数据,以达到 “减小 IO 次数” 和 “下降 CPU 计算” 的目标
- 常见误区
- count(1)和count(primary_key) 优于 count(*)
不少人为了统计记录条数,就使用 count(1) 和 count(primary_key) 而不是 count(*) ,他们认为这样性能更好,其实这是一个误区。对于有些场景,这样作可能性能会更差,应为数据库对 count(*) 计数操做作了一些特别的优化。
- count(column) 和 count(*) 是同样的
这个误区甚至在不少的资深工程师或者是 DBA 中都广泛存在,不少人都会认为这是理所固然的。实际上,count(column) 和 count(*) 是一个彻底不同的操做,所表明的意义也彻底不同。
count(column) 是表示结果集中有多少个column字段不为空的记录
count(*) 是表示整个结果集有多少条记录
- select a,b from … 比 select a,b,c from … 可让数据库访问更少的数据量
这个误区主要存在于大量的开发人员中,主要缘由是对数据库的存储原理不是太了解。
实际上,大多数关系型数据库都是按照行(row)的方式存储,而数据存取操做都是以一个固定大小的IO单元(被称做 block 或者 page)为单位,通常为4KB,8KB… 大多数时候,每一个IO单元中存储了多行,每行都是存储了该行的全部字段(lob等特殊类型字段除外)。
因此,咱们是取一个字段仍是多个字段,实际上数据库在表中须要访问的数据量实际上是同样的。
固然,也有例外状况,那就是咱们的这个查询在索引中就能够完成,也就是说当只取 a,b两个字段的时候,不须要回表,而c这个字段不在使用的索引中,须要回表取得其数据。在这样的状况下,两者的IO量会有较大差别。
- order by 必定须要排序操做
咱们知道索引数据其实是有序的,若是咱们的须要的数据和某个索引的顺序一致,并且咱们的查询又经过这个索引来执行,那么数据库通常会省略排序操做,而直接将数据返回,由于数据库知道数据已经知足咱们的排序需求了。
实际上,利用索引来优化有排序需求的 SQL,是一个很是重要的优化手段
延伸阅读:MySQL ORDER BY 的实现分析 ,MySQL 中 GROUP BY 基本实现原理 以及 MySQL DISTINCT 的基本实现原理 这3篇文章中有更为深刻的分析,尤为是第一篇
- 执行计划中有 filesort 就会进行磁盘文件排序
有这个误区其实并不能怪咱们,而是由于 MySQL 开发者在用词方面的问题。filesort 是咱们在使用 explain 命令查看一条 SQL 的执行计划的时候可能会看到在 “Extra” 一列显示的信息。
实际上,只要一条 SQL 语句须要进行排序操做,都会显示“Using filesort”,这并不表示就会有文件排序操做。
延伸阅读:理解 MySQL Explain 命令输出中的filesort,我在这里有更为详细的介绍
- 基本原则
- 尽可能少 join
MySQL 的优点在于简单,但这在某些方面其实也是其劣势。MySQL 优化器效率高,可是因为其统计信息的量有限,优化器工做过程出现误差的可能性也就更多。对于复杂的多表 Join,一方面因为其优化器受限,再者在 Join 这方面所下的功夫还不够,因此性能表现离 Oracle 等关系型数据库前辈仍是有必定距离。但若是是简单的单表查询,这一差距就会极小甚至在有些场景下要优于这些数据库前辈。
- 尽可能少排序
排序操做会消耗较多的 CPU 资源,因此减小排序能够在缓存命中率高等 IO 能力足够的场景下会较大影响 SQL 的响应时间。
对于MySQL来讲,减小排序有多种办法,好比:
- 上面误区中提到的经过利用索引来排序的方式进行优化
- 减小参与排序的记录条数
- 非必要不对数据进行排序
- …
- 尽可能避免 select *
不少人看到这一点后以为比较难理解,上面不是在误区中刚刚说 select 子句中字段的多少并不会影响到读取的数据吗?
是的,大多数时候并不会影响到 IO 量,可是当咱们还存在 order by 操做的时候,select 子句中的字段多少会在很大程度上影响到咱们的排序效率,这一点能够经过我以前一篇介绍 MySQL ORDER BY 的实现分析 的文章中有较为详细的介绍。
此外,上面误区中不是也说了,只是大多数时候是不会影响到 IO 量,当咱们的查询结果仅仅只须要在索引中就能找到的时候,仍是会极大减小 IO 量的。
- 尽可能用 join 代替子查询
虽然 Join 性能并不佳,可是和 MySQL 的子查询比起来仍是有很是大的性能优点。MySQL 的子查询执行计划一直存在较大的问题,虽然这个问题已经存在多年,可是到目前已经发布的全部稳定版本中都广泛存在,一直没有太大改善。虽然官方也在很早就认可这一问题,而且承诺尽快解决,可是至少到目前为止咱们尚未看到哪个版本较好的解决了这一问题。
- 尽可能少 or
当 where 子句中存在多个条件以“或”并存的时候,MySQL 的优化器并无很好的解决其执行计划优化问题,再加上 MySQL 特有的 SQL 与 Storage 分层架构方式,形成了其性能比较低下,不少时候使用 union all 或者是union(必要的时候)的方式来代替“or”会获得更好的效果。
- 尽可能用 union all 代替 union
union 和 union all 的差别主要是前者须要将两个(或者多个)结果集合并后再进行惟一性过滤操做,这就会涉及到排序,增长大量的 CPU 运算,加大资源消耗及延迟。因此当咱们能够确认不可能出现重复结果集或者不在意重复结果集的时候,尽可能使用 union all 而不是 union。
- 尽可能早过滤
这一优化策略其实最多见于索引的优化设计中(将过滤性更好的字段放得更靠前)。
在 SQL 编写中一样可使用这一原则来优化一些 Join 的 SQL。好比咱们在多个表进行分页数据查询的时候,咱们最好是可以在一个表上先过滤好数据分好页,而后再用分好页的结果集与另外的表 Join,这样能够尽量多的减小没必要要的 IO 操做,大大节省 IO 操做所消耗的时间。
- 避免类型转换
这里所说的“类型转换”是指 where 子句中出现 column 字段的类型和传入的参数类型不一致的时候发生的类型转换:
- 人为在column_name 上经过转换函数进行转换
直接致使 MySQL(实际上其余数据库也会有一样的问题)没法使用索引,若是非要转换,应该在传入的参数上进行转换
- 由数据库本身进行转换
若是咱们传入的数据类型和字段类型不一致,同时咱们又没有作任何类型转换处理,MySQL 可能会本身对咱们的数据进行类型转换操做,也可能不进行处理而交由存储引擎去处理,这样一来,就会出现索引没法使用的状况而形成执行计划问题。
- 优先优化高并发的 SQL,而不是执行频率低某些“大”SQL
对于破坏性来讲,高并发的 SQL 老是会比低频率的来得大,由于高并发的 SQL 一旦出现问题,甚至不会给咱们任何喘息的机会就会将系统压跨。而对于一些虽然须要消耗大量 IO 并且响应很慢的 SQL,因为频率低,即便遇到,最多就是让整个系统响应慢一点,但至少可能撑一下子,让咱们有缓冲的机会。
- 从全局出发优化,而不是片面调整
SQL 优化不能是单独针对某一个进行,而应充分考虑系统中全部的 SQL,尤为是在经过调整索引优化 SQL 的执行计划的时候,千万不能顾此失彼,因小失大。
- 尽量对每一条运行在数据库中的SQL进行 explain 优化 SQL,须要作到心中有数,知道 SQL 的执行计划才能判断是否有优化余地,才能判断是否存在执行计划问题。在对数据库中运行的 SQL 进行了一段时间的优化以后,很明显的问题 SQL 可能已经不多了,大多都须要去发掘,这时候就须要进行大量的 explain 操做收集执行计划,并判断是否须要进行优化。