MySQL中聚合函数count的使用和性能优化

本文的环境是Windows 10,MySQL版本是5.7.12-logmysql

1、 基本使用

count的基本做用是有两个:web

  • 统计某个列的数据的数量;
  • 统计结果集的行数;

用来获取知足条件的数据的数量。可是其中有一些与使用中印象不一样的状况,好比当count做用一列、多列、以及使用*来表达整行产生的效果是不一样的。sql

示例表以下:数据库

CREATE TABLE `NewTable` ( `id` int(11) NULL DEFAULT NULL , `name` varchar(30) NULL DEFAULT NULL , `country` varchar(50) NULL DEFAULT NULL , `province` varchar(30) NULL DEFAULT NULL , `city` varchar(30) NULL DEFAULT NULL )ENGINE=InnoDB

这里写图片描述

1.1 不计算NULL的值

若是有NULL值,在返回的结果中会被过滤掉缓存

select count(country) from person;

返回结果以下:性能优化

这里写图片描述

若是知足条件的数据项不存在,则结构返回0,常常经过这种方式判断是否有知足条件的数据存在;返回的数据类型是bigint架构

1.2 对count(*)的处理

count(*)的处理是有点不一样的,它会返回全部数据的数量,可是不会过滤其中的NULL值,它也并非至关于展开成全部的列,而是直接会忽略全部的列而直接统计全部的行数。语句以下:svg

select count(*) from person;

返回结果以下:性能

这里写图片描述

当想要返回全部的数据的数量的时候,可是又不想包括所有是NULL的列,使用count(*)是不可能作到的,可是在1.1中说到count做用于列的时候会过滤NULL,那么直接这么写是否是对?优化

select count(id, `name`, country, province, city) from person;

那就错了,count只能做用于单列,不能做用于多列 ,因此上面的写法是错误的。

另外针对count(*)语句,在MyISAM存储引擎中作了优化,每一个表的数据行数都会存储在存储引擎中,能够很快拿到;可是在事务性的存储引擎中,好比InnoDB中,由于会涉及到多个事务;

1.3 对count(distinct …)的处理

count(distinct …)会返回彼此不一样可是非NULL的数据的行数。这一点和只使用distinct是有区别的,由于distinct是不过滤NULL值的,详见MySQL中distinct的使用方法
- 若是没有符合条件的数据则返回0;
- 该语句能够做用于多列,是当各个列之间有一个不一样,就认为整行数据不一样,与distinct做用于多列时效果相同;

select count(DISTINCT country) from person;

返回结果以下:

这里写图片描述

可是对于count(*)count(distinct )二者的结合,以下:

select count(DISTINCT *) from person;

该语句是错误的,没法执行,所以与select count(DISTINCT *) from person 仍是有区别的。

2、 性能优化

一般状况下,count(*)操做须要大量扫描数据表中的行,若是避免扫描大量的数据就成为优化该语句的关键所在。针对这个问题能够从以下两个角度考虑。

2.1 在数据库的层次上优化

2.1.1 针对count(*)

在MySQL内部已经针对count(*)进行了优化,使用explain查询以下:

EXPLAIN select count(*) from person;

这里写图片描述

从中能够看出该查询没有使用全表扫描也没有使用索引,甚至不须要查询数据表,在上面的示例数据库中得知,该库的存储引擎是InnoDB ,并且其中既没有主键也没有索引。

2.2 针对单个列进行count

查询以下:

EXPLAIN select count(country) from person where id > 2;

这里写图片描述

发如今没有主键和索引的状况下,对全表进行了扫描。在数据中避免大量扫描数据行,一个最直接的方法使用索引:

  • 当对id设置为通常索引INDEX abc (id) USING BTREE

    执行查询以下:

    EXPLAIN select count(country) from person where id > 2;

    结果以下:

    这里写图片描述

    此时发现并无使用索引,仍然进行的是全表扫描,当执行以下时:

    EXPLAIN select count(country) from person where id > 4;

    结果以下:

    这里写图片描述

    这是使用了索引进行了范围查询,显然比上面的要好。

    可是问题来了,为何有时候使用索引,有时候不用索引?在上面的第一次查询中已经可以检测出可能的key可是并无使用?若是有知道的大神给解读一下!

  • 对id设置为主键,执行查询以下:

    EXPLAIN select count(country) from person where id > 2;

    结果以下:

    这里写图片描述

2.2 在应用的层次上优化

在应用的层次上优化,能够考虑在系统架构中引入缓存子系统,好比在过去中经常使用的Memcached,或者如今很是流行的Redis, 可是这样会增长系统的复杂性。