Mysql性能优化:为何count(*)这么慢?

导读

  • 在开发中必定会用到统计一张表的行数,好比一个交易系统,老板会让你天天生成一个报表,这些统计信息少不了sql中的count函数。redis

  • 可是随着记录愈来愈多,查询的速度会愈来愈慢,为何会这样呢?Mysql内部究竟是怎么处理的?sql

  • 今天这篇文章将从Mysql内部对于count函数是怎样处理的来展开详细的讲述。数据库

count的实现方式

  • 在Mysql中的不一样的存储引擎对count函数有不一样的实现方式。缓存

  • MyISAM引擎把一个表的总行数存在了磁盘上,所以执行count(*)的时候会直接返回这个数,效率很高(没有where查询条件)。性能优化

  • InnoDB引擎并无直接将总数存在磁盘上,在执行count(*)函数的时候须要一行一行的将数据读出来,而后累计总数。并发

为何InnoDB不将总数存起来?

  • 说到InnoDB相信读者总会想到其支持事务的特性,事务具备隔离性,若是将总数存起来,怎么保证各个事务之间的总数的一致性呢?不明白的看下图:函数

  • 事务A事务B中的count(*)的执行结果是不一样的,所以InnoDB引擎在每一个事务中返回多少行是不肯定的,只能一行一行的读出来用来判断总数。高并发

如何提高count效率

  • InnoDB对于如何提高count(*)的查询效率,网上有多种解决办法,这里主要介绍三种,并分析可行性。性能

show table status

  • show table status这个命令可以很快的查询出数据库中每一个表的行数,可是真的可以替代count(*)吗?优化

  • 答案是不能。缘由很简单,这个命令统计出来的值是一个「估值」,所以是不许确的,官方文档说偏差大概在40%-50%

  • 所以这种方法直接pass,不许确还用它干吗。

缓存系统存储总数

  • 这种方法也是最容易想到的,增长一行就+1,删除一行就-1,而且缓存系统读取也是很快,既简单又方便的为何不用?

  • 缓存系统和Mysql是两个系统,好比redisMysql这两个是典型的比较。两个系统最难的就是在高并发下没法保证数据的一致性。经过如下两图咱们来理解一下:

  • 经过上面两张图,不管是redis计数+1仍是insert into user先执行,最终都会致使数据在逻辑上的不一致。第一张图会出现redis计数少了,第二张图虽然计数正确了可是并无查询出插入的那一行数据。

  • 在并发系统里面,咱们是没法精确控制不一样线程的执行时刻的,由于存在图中的这种操做序列,因此,咱们说即便Redis正常工做,这个计数值仍是逻辑上不精确的。

在数据库保存计数

  • 经过缓存系统保存的分析得知了使用缓存没法保证数据在逻辑上的一致性,所以咱们想到了直接使用数据库来保存,有了「事务」的支持,也就保证了数据的一致性了。

  • 如何使用呢?很简单,直接将计数保存在一张表中(table_name,total)

  • 至于执行的逻辑只须要将缓存系统中redis计数+1改为total字段+1便可,以下图:

  • 因为在同一个事务中,保证了数据在逻辑上的一致性。

不一样count的用法

  • count()是一个聚合函数,对于返回的结果集,一行行地判断,若是count函数的参数不是NULL,累计值就加1,不然不加。最后返回累计值。

  • count的用法有多种,分别是count(*)count(字段)count(1)count(主键id)。那么多种用法,到底有什么差异呢?固然,「前提是没有where条件语句」

  • count(id):InnoDB引擎会遍历整张表,把每一行的id值都取出来,返回给server层。server层拿到id后,判断是不可能为空的,就按行累加。

  • count(1):InnoDB引擎遍历整张表,但不取值。server层对于返回的每一行,放一个数字1进去,判断是不可能为空的,按行累加。

  • count(字段)

    • 若是这个“字段”是定义为not null的话,一行行地从记录里面读出这个字段,判断不能为null,按行累加;

    • 若是这个字段定义容许为null,那么执行的时候,判断到有多是null,还要把值取出来再判断一下,不是null才累加。

  • count(*):不会把所有字段取出来,而是专门作了优化,不取值。count(*)确定不是null,按行累加。

  • 因此结论很简单:「按照效率排序的话,count(字段)<count(主键id)<count(1)count(*),因此建议读者,尽可能使用count(*)。」

  • 「注意」:这里确定有人会问,count(id)不是走的索引吗,为何查询效率和其余的差很少呢?陈某在这里解释一下,虽然走的索引,可是仍是要一行一行的扫描才能统计出来总数。

总结

  • MyISAM表虽然count(*)很快,可是不支持事务;

  • show table status命令虽然返回很快,可是不许确;

  • InnoDB直接count(*)会遍历全表(没有where条件),虽然结果准确,但会致使性能问题。

  • 缓存系统的存储计数虽然简单效率高,可是没法保证数据的一致性。

  • 数据库保存计数很简单,也能保证数据的一致性,建议使用。

  • 「思考题,读者留言区讨论」:在系统高并发的状况下,使用数据库保存计数,是先更新计数+1,仍是先插入数据。便是先update total+=1仍是先insert into

留言讨论区

往期推荐

一条SQL查询语句是如何执行的?Mysql性能优化:为何要用覆盖索引?Mysql性能优化:什么是索引下推?Mysql中的三类锁,你知道吗?Mysql性能优化:如何给字符串加索引?