本文将探讨如下问题
mysql
4.case when 语句与 count 连用实现按过滤计数sql
1、 COUNT()做用数据库
count的基本做用是有两个:缓存
准备表以及数据性能优化
create table emp ( empno numeric(4) not null, ename varchar(10), job varchar(9), mgr numeric(4), hiredate datetime, sal numeric(7, 2), comm numeric(7, 2), deptno numeric(2) ); insert into emp values (7369, 'SMITH', 'CLERK', 7902, '1980-12-17', 800, null, 20); insert into emp values (7499, 'ALLEN', 'SALESMAN', 7698, '1981-02-20', 1600, 300, 30); insert into emp values (7521, 'WARD', 'SALESMAN', 7698, '1981-02-22', 1250, 500, 30); insert into emp values (7566, 'JONES', 'MANAGER', 7839, '1981-04-02', 2975, null, 20); insert into emp values (7654, 'MARTIN', 'SALESMAN', 7698, '1981-09-28', 1250, 1400, 30); insert into emp values (7698, 'BLAKE', 'MANAGER', 7839, '1981-05-01', 2850, null, 30); insert into emp values (7782, 'CLARK', 'MANAGER', 7839, '1981-06-09', 2450, null, 10); insert into emp values (7788, 'SCOTT', 'ANALYST', 7566, '1982-12-09', 3000, null, 20); insert into emp values (7839, 'KING', 'PRESIDENT', null, '1981-11-17', 5000, null, 10); insert into emp values (7844, 'TURNER', 'SALESMAN', 7698, '1981-09-08', 1500, 0, 30); insert into emp values (7876, 'ADAMS', 'CLERK', 7788, '1983-01-12', 1100, null, 20); insert into emp values (7900, 'JAMES', 'CLERK', 7698, '1981-12-03', 950, null, 30); insert into emp values (7902, 'FORD', 'ANALYST', 7566, '1981-12-03', 3000, null, 20); insert into emp values (7934, 'MILLER', 'CLERK', 7782, '1982-01-23', 1300, null, 10); create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13) ); insert into dept values (10, 'ACCOUNTING', 'NEW YORK'); insert into dept values (20, 'RESEARCH', 'DALLAS'); insert into dept values (30, 'SALES', 'CHICAGO'); insert into dept values (40, 'OPERATIONS', 'BOSTON'); create table bonus ( empno numeric(4), job varchar(9), sal numeric, comm numeric ); create table salgrade ( grade numeric, losal numeric, hisal numeric ); insert into salgrade values (1, 700, 1200); insert into salgrade values (2, 1201, 1400); insert into salgrade values (3, 1401, 2000); insert into salgrade values (4, 2001, 3000); insert into salgrade values (5, 3001, 9999);
1.一、count(*) 与 count(列) 比较架构
mysql> select * from emp;函数
+-------+--------+-----------+------+---------------------+---------+---------+--------+
| empno | ename | job | mgr | hiredate | sal | comm | deptno |
+-------+--------+-----------+------+---------------------+---------+---------+--------+
| 7369 | SMITH | CLERK | 7902 | 1980-12-17 00:00:00 | 800.00 | NULL | 20 |
| 7499 | ALLEN | SALESMAN | 7698 | 1981-02-20 00:00:00 | 1600.00 | 300.00 | 30 |
| 7521 | WARD | SALESMAN | 7698 | 1981-02-22 00:00:00 | 1250.00 | 500.00 | 30 |
| 7566 | JONES | MANAGER | 7839 | 1981-04-02 00:00:00 | 2975.00 | NULL | 20 |
| 7654 | MARTIN | SALESMAN | 7698 | 1981-09-28 00:00:00 | 1250.00 | 1400.00 | 30 |
| 7698 | BLAKE | MANAGER | 7839 | 1981-05-01 00:00:00 | 2850.00 | NULL | 30 |
| 7782 | CLARK | MANAGER | 7839 | 1981-06-09 00:00:00 | 2450.00 | NULL | 10 |
| 7788 | SCOTT | ANALYST | 7566 | 1982-12-09 00:00:00 | 3000.00 | NULL | 20 |
| 7839 | KING | PRESIDENT | NULL | 1981-11-17 00:00:00 | 5000.00 | NULL | 10 |
| 7844 | TURNER | SALESMAN | 7698 | 1981-09-08 00:00:00 | 1500.00 | 0.00 | 30 |
| 7876 | ADAMS | CLERK | 7788 | 1983-01-12 00:00:00 | 1100.00 | NULL | 20 |
| 7900 | JAMES | CLERK | 7698 | 1981-12-03 00:00:00 | 950.00 | NULL | 30 |
| 7902 | FORD | ANALYST | 7566 | 1981-12-03 00:00:00 | 3000.00 | NULL | 20 |
| 7934 | MILLER | CLERK | 7782 | 1982-01-23 00:00:00 | 1300.00 | NULL | 10 |
+-------+--------+-----------+------+---------------------+---------+---------+--------+
14 rows in set (0.00 sec)
mysql> select count(*) from emp;
+----------+
| count(*) |
+----------+
| 14 |
+----------+
1 row in set (0.00 sec)
mysql> select count(comm) from emp;
+-------------+
| count(comm) |
+-------------+
| 4 |
+-------------+
性能
1 row in set (0.00 sec)
优化
2、基于 MYSQL存储引擎spa
1)MyISAM存储引擎
MyISAM的COUNT()函数老是很是快,不过这是有前提条件的,即只有没有任何where条件的COUNT(*)才很是快,由于此时无需实际地去计算表的行数。MySQL能够利用存储引擎的特性直接得到这个值。若是MySQL知道某列col不可能为NULL值,那么MySQL内部会将COUNT(col)表达式优化为COUNT(*)。
当统计带WHERE子句的结果集行数,能够是统计某个列值的数量时,MySQL的COUNT()和其它存储引擎没有任何不一样,就再也不有神话般的速度了。因此在MyISAM引擎表上执行COUNT()有时候比别的引擎快,有时候比别的引擎慢,这受不少因素影响,要视具体状况而定。
2)Innodb存储引擎:
(1) innodb存储引擎的物理结构包含 表空间、段、区、页、行 五个层级,数据文件按照主键排序存储在页中(页在逻辑上连续),主键的位置即为数据存储位置。
(2) 二级索引存储的数据为指定字段的值与主键值。当咱们经过二级索引统计数据的时候,无需扫描数据文件;而经过主键索引统计数据时,因为主键索引与数据文件存放在一块儿,因此每次都会扫描数据文件,故大多数状况下,经过二级索引统计数据效率 >= 基于主键统计效率。
(3) 因为二级索引存储的数据为指定字段的值与主键值,故在无索引覆盖的状况下,查询二级索引后会根据二级索引获取的主键到主键索引中提取数据,此过程可能形成大量的随机io,致使查询速度较慢。
(4) 因为主键索引与数据存储保持一致,故基于主键的查找数据要比经过二级索引查询数据要快(使用二级索引时,查询到的数据条数>总条数的20%时候mysql就选择全表扫描,但在主键索引上,即便符合条件的达到 90%依然会走索引)。
1.三、count慢的缘由:
innodb为聚簇索引同时支持事物,其在count指令实现上采用实时统计方式。在无可用的二级索引状况下,执行count会使MySQL扫描全表数据,当数据中存在大字段或字段较多时候,其效率很是低下(每一个页只能包含较少的数据条数,须要访问的物理页较多)。
1.四、innodb可优化点:
1. 主键须要采用占用空间尽可能小的类型且数据具备连续性(推荐自增整形id),这样有利于减小页分裂、页内数据移动,可加快插入速度同时有利于增长二级索引密度(一个数据页上能够存储更多的数据)。
2.在表包含大字段或字段较多状况下,若存在count统计需求,可建一个较小字段的二级索引(例 char(1) , tinyint )来进行count统计加速。下面作个count优化例子:
1.首先咱们建立一直innodb表,并包含大字段(或包含较多字段):
CREATE TABLE `qstardbcontent` (
`id` BIGINT(20) NOT NULL DEFAULT '0',
`content` MEDIUMTEXT,
`length` INT(11) NOT NULL DEFAULT '0',
PRIMARY KEY (`id`)
) ENGINE=INNODB DEFAULT CHARSET=utf8
2.插入50万条数据,每条数据 5K
3.执行select count(*) from qstardbcontent
能够看到,近50万条内容较多的数据执行一个count(*) 就须要耗时 13分28秒
下面咱们作个优化,在length字段上加个索引, 执行sql: ALTER TABLE qstardbcontent ADD KEY(LENGTH);
索引建完成后,再执行 select count(*) from qstardbcontent;
能够看到,整个统计查询很是快,仅用了 354毫秒就完成了查询。
1.五、加速缘由:
在innodb表上建立了一个二级索引,Innodb在执行count(*)时候由优化器选择执行路径。
本例中, 二级索引的存储空间仅包含length字段值、数据主键,假设二级索引辅助结构不占用空间(仅计算数据占用空间),在默认状况下,MySQL的一个数据页大小为16K,一个页可存储的数据条数为 16*1024/(4+8) =1365 ,按照单页存储空间占用为50%(页分裂现象致使页不满)计算,50万条数据的统计仅须要读取约732个物理页,而页在连续的状况下,数据库一次可读取多个连续的页,数据读取总量为 16k*732约 12MB,因mysql空间分配为按区分配,每一个区1M,一次分配1-5个连续区,当数据量较小,一次仅分配一个区,12M数据会分配在12个区中,按照pc硬盘(转速7200转/分) 70m/s 的读取速度,整个过程的io寻址时间(12*8.5ms=102)+读取时间(12m/70m=171ms)=273ms,而数据解析统计约为 30-100ms,故总耗时会在300ms附近(注:count优化功能在5.1版本并不支持)。
3、性能优化一般状况下,count(*)操做须要大量扫描数据表中的行,若是避免扫描大量的数据就成为优化该语句的关键所在。针对这个问题能够从以下两个角度考虑。
索引
在应用的层次上优化,能够考虑在系统架构中引入缓存子系统,好比在过去中经常使用的Memcached,或者如今很是流行的Redis, 可是这样会增长系统的复杂性。
总结:count(*) 将返回表格中全部存在的行的总数包括值为 null 的行;
count(列名) 将返回表格中除去 null 之外的全部行的总数 (有默认值的列也会被计入);优化方法:count(*)与count(COL)的区别
count(*)在统计时会统计上空值(NULL),可是count(COL)则不会。因此要灵活运用count的这个特性,来实现相应的查询。
可是从性能上来讲:count(*)是找一个占用空间最小的索引字段,而后对它进行记数,在count命令中,它指的是“任意一个“。 对于一个大表来讲,若是你的字段有bit类型,如性别字段,表示真假关系的字段,咱们须要为它加上索引,加上以后,咱们的count速度就会快不少。 一、任何状况下 SELECT COUNT(*) FROM tablename; 是最优选择; 二、尽可能减小SELECT COUNT(*) FROM tablename WHERE COL = value; 这种查询; 三、杜绝SELECT COUNT(COL) FROM tablename 后面跟各类WHERE条件; 的出现。