本文的环境是Windows 10,MySQL版本是5.7.12-logmysql
count
的基本做用是有两个:web
用来获取知足条件的数据的数量。可是其中有一些与使用中印象不一样的状况,好比当count做用一列、多列、以及使用*
来表达整行产生的效果是不一样的。sql
示例表以下:数据库
CREATE TABLE `NewTable` ( `id` int(11) NULL DEFAULT NULL , `name` varchar(30) NULL DEFAULT NULL , `country` varchar(50) NULL DEFAULT NULL , `province` varchar(30) NULL DEFAULT NULL , `city` varchar(30) NULL DEFAULT NULL )ENGINE=InnoDB
NULL
的值若是有NULL
值,在返回的结果中会被过滤掉缓存
select count(country) from person;
返回结果以下:性能优化
若是知足条件的数据项不存在,则结构返回0,常常经过这种方式判断是否有知足条件的数据存在;返回的数据类型是bigint
。架构
count(*)
的处理是有点不一样的,它会返回全部数据的数量,可是不会过滤其中的NULL值,它也并非至关于展开成全部的列,而是直接会忽略全部的列而直接统计全部的行数。语句以下:svg
select count(*) from person;
返回结果以下:性能
当想要返回全部的数据的数量的时候,可是又不想包括所有是NULL的列,使用count(*)是不可能作到的,可是在1.1中说到count做用于列的时候会过滤NULL,那么直接这么写是否是对?优化
select count(id, `name`, country, province, city) from person;
那就错了,count只能做用于单列,不能做用于多列 ,因此上面的写法是错误的。
另外针对count(*)语句,在MyISAM存储引擎中作了优化,每一个表的数据行数都会存储在存储引擎中,能够很快拿到;可是在事务性的存储引擎中,好比InnoDB中,由于会涉及到多个事务;
count(distinct …)会返回彼此不一样可是非NULL
的数据的行数。这一点和只使用distinct是有区别的,由于distinct是不过滤NULL值的,详见MySQL中distinct的使用方法 。
- 若是没有符合条件的数据则返回0;
- 该语句能够做用于多列,是当各个列之间有一个不一样,就认为整行数据不一样,与distinct
做用于多列时效果相同;
select count(DISTINCT country) from person;
返回结果以下:
可是对于count(*)
和count(distinct )
二者的结合,以下:
select count(DISTINCT *) from person;
该语句是错误的,没法执行,所以与select count(DISTINCT *) from person
仍是有区别的。
一般状况下,count(*)操做须要大量扫描数据表中的行,若是避免扫描大量的数据就成为优化该语句的关键所在。针对这个问题能够从以下两个角度考虑。
count(*)
在MySQL内部已经针对count(*)进行了优化,使用explain查询以下:
EXPLAIN select count(*) from person;
从中能够看出该查询没有使用全表扫描也没有使用索引,甚至不须要查询数据表,在上面的示例数据库中得知,该库的存储引擎是InnoDB ,并且其中既没有主键也没有索引。
count
查询以下:
EXPLAIN select count(country) from person where id > 2;
发如今没有主键和索引的状况下,对全表进行了扫描。在数据中避免大量扫描数据行,一个最直接的方法使用索引:
当对id设置为通常索引 :INDEX abc
(id
) USING BTREE 。
执行查询以下:
EXPLAIN select count(country) from person where id > 2;
结果以下:
此时发现并无使用索引,仍然进行的是全表扫描,当执行以下时:
EXPLAIN select count(country) from person where id > 4;
结果以下:
这是使用了索引进行了范围查询,显然比上面的要好。
可是问题来了,为何有时候使用索引,有时候不用索引?在上面的第一次查询中已经可以检测出可能的key可是并无使用?若是有知道的大神给解读一下!
对id设置为主键,执行查询以下:
EXPLAIN select count(country) from person where id > 2;
结果以下:
在应用的层次上优化,能够考虑在系统架构中引入缓存子系统,好比在过去中经常使用的Memcached,或者如今很是流行的Redis, 可是这样会增长系统的复杂性。