提示：下方有源代码地址，请自行拿取前端

前言

朋友们，又见面了，上篇文章我们讲到MySQL分库分表的方法，这篇文章我们就针对上一篇文章模拟在MySQL中海量数据的优化方法，文章干货较多，建议你点赞、评论、收藏、关注起来慢慢看mysql

提示：如下是本篇文章正文内容，案例仅供参考git

1、准备表数据

我们建一张用户表，表中的字段有用户ID、用户名、地址、记录建立时间，如图所示 web

OK，接下来准备写一个存储过程插入一百万条数据面试

CREATE TABLE `t_user` (
  `id` int NOT NULL,
  `user_name` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL,
  `address` varchar(255) DEFAULT NULL,
  `create_time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;


DELIMITER ;;
CREATE PROCEDURE user_insert()
BEGIN
DECLARE i INT DEFAULT 0;
WHILE i<1000000
DO
INSERT INTO t_user(id, user_name, address,  create_time) VALUES (i, CONCAT('mayun',i), '浙江杭州', now());
SET i=i+1;
END WHILE ;
commit;
END;;
CALL user_insert();
复制代码

插入完后我们看看数据条数sql

2、优化方式

1.分页查询优化

OK，我们看下分页limit到必定值时的耗时是多少数据库

limit 1000时

limit 10000时

limit 100000时

limit 1000000时

能够看到limit值越大，耗时越长，这还只是一百万数据，要是千万级、亿级呢？编程

OK不废话，我们立刻进行分页优化浏览器

子查询优化

能够看到比起以前 limit 1000000时的0.218s 效率提升了不少缓存

使用JOIN分页

能够看到比起以前 limit 1000000时的0.218s 效率也一样提升了不少

使用前一次查询的最大ID

能够看到这种方法效率最高，但依赖于须要知道最大ID，这种适合点击下一页查询（相似于滚动加载数据）的场景

经过伪列对ID进行分页

而后能够开启多个线程去进行最高效率查询语句的批量查询操做 0~10000，10001-20000.... 这样子的话能够快速把全量数据查询出来同步至缓存中。

分页优化总结： 使用前一次查询的最大ID进行查询优化是效率最高的方法，但这种方法只适用于下一页点击的这种操做，对于同步全量数据来讲建议的方式使用伪列对ID进行分页，而后开启多个线程同时查询，把全量数据加载到缓存，之后面试官问你如何 快速获取海量数据并加载到缓存 你该知道怎么回答了吧。

2.普通索引优化

先来看没索引优化的状况下的查询效率

能够看到这时没用索引的状况，用了0.305S接下来看看加了索引后的结果

普通索引优化

只须要0.024S，咱们能够EXPLAIN看下能够看到使用了普通索引后查询效率明显增长

3.复合索引优化

复合索引何时用？为何要用？围绕着这两问题，我们先来讲说复合索引何时用

单表中查询、条件语句中具备较多个字段
使用索引会影响写的效率，须要研究创建最优秀的索引

咱们这里建议一个复合索引

MySQL创建复合索引时实际创建了(user_name)、（user_name,address）、(user_name,address,create_time)三个索引,咱们都知道每多一个索引，都会增长写操做的开销和磁盘空间的开销，对于海量数据的表，这但是不小的开销，因此你会发现咱们在这里使用复合索引一个顶三个，又能减小写操做的开销和磁盘空间的开销

当咱们select user_name,address,create_time from t_user where user_name=xx and address = xxx时，MySQL能够直接经过遍历索引取得数据，无需回表，这减小了不少的随机IO操做。因此，在真正的实际应用中，这就是覆盖索引，是复合索引中主要的提高性能的优化手段之一。

4.SQL查询优化

避免使用OR，看看例子

能够看到这条语句没有使用到索引，是由于当or左右查询字段只有一个是索引，该索引失效，只有当or左右查询字段均为索引时，才会生效。

不要使用like '%xx' %在左边时索引失效

3. 使用复合索引时没有遵循最左匹配原则 ref:这个链接类型只有在查询使用了不是唯一或主键的键或者是这些类型的部分（好比，利用最左边前缀）时发生。没有值说明没有利用最左前缀原则

再来看个使用了最左前缀的例子 4. 不要让数据类型出现隐式转化

能够看如下两个例子 5. 不要在索引字段上使用not，<>，!=，同样会致使索引失效 6. 分解关联查询例如这条语句

能够分解成

7.小表驱动大表即小的数据集驱动大的数据集。如：以t_user，t_order两表为例，两表经过 t_user的id字段进行关联。

当 t_order表的数据集小于t_user表时,用 in 优化 exist,使用 in,两表执行顺序是先查 t_order 表,再查t_user表
select * from t_user where id in (select user_id from t_order)
 
当 t_user 表的数据集小于 t_order 表时，用 exist 优化 in,使用 exists,两表执行顺序是先查 t_user  表,再查 t_order  表
select * from t_user where exists (select 1 from B where t_order.user_id= t_user.id)

复制代码

5.事务优化

首先了解下事务的隔离级别，数据库共定义了四种隔离级别：

Serializable：可避免脏读、不可重复读、虚读状况的发生。（串行化）
Repeatable read：可避免脏读、不可重复读状况的发生。（可重复读）
Read committed：可避免脏读状况发生（读已提交）。
Read uncommitted：最低级别，以上状况均没法保证。(读未提交)

能够经过 set transaction isolation level 设置事务隔离级别来提升性能

6.数据库性能优化

开启查询缓存

在解析一个查询语句前，若是查询缓存是打开的，那么MySQL会检查这个查询语句是否命中查询缓存中的数据。若是当前查询刚好命中查询缓存，在检查一次用户权限后直接返回缓存中的结果。这种状况下，查询不会被解析，也不会生成执行计划，更不会执行。 MySQL将缓存存放在一个引用表（不要理解成table，能够认为是相似于HashMap的数据结构），经过一个哈希值索引，这个哈希值经过查询自己、当前要查询的数据库、客户端协议版本号等一些可能影响结果的信息计算得来。因此两个查询在任何字符上的不一样（例如：空格、注释），都会致使缓存不会命中。
若是查询中包含任何用户自定义函数、存储函数、用户变量、临时表、mysql库中的系统表，其查询结果都不会被缓存。好比函数NOW()或者CURRENT_DATE()会由于不一样的查询时间，返回不一样的查询结果，再好比包含CURRENT_USER或者CONNECION_ID()的查询语句会由于不一样的用户而返回不一样的结果，将这样的查询结果缓存起来没有任何的意义。
既然是缓存，就会失效，那查询缓存什么时候失效呢？MySQL的查询缓存系统会跟踪查询中涉及的每一个表，若是这些表（数据或结构）发生变化，那么和这张表相关的全部缓存数据都将失效。正由于如此，在任何的写操做时，MySQL必须将对应表的全部缓存都设置为失效。若是查询缓存很是大或者碎片不少，这个操做就可能带来很大的系统消耗，甚至致使系统僵死一下子。并且查询缓存对系统的额外消耗也不只仅在写操做，读操做也不例外：
```
　　任何的查询语句在开始以前都必须通过检查，即便这条SQL语句永远不会命中缓存
 　　若是查询结果能够被缓存，那么执行完成后，会将结果存入缓存，也会带来额外的系统消耗
复制代码
```
基于此，咱们要知道并非什么状况下查询缓存都会提升系统性能，缓存和失效都会带来额外消耗，只有当缓存带来的资源节约大于其自己消耗的资源时，才会给系统带来性能提高。但要如何评估打开缓存是否可以带来性能提高是一件很是困难的事情，也不在本文讨论的范畴内。若是系统确实存在一些性能问题，能够尝试打开查询缓存，并在数据库设计上作一些优化，好比：

　 . 批量插入代替循环单条插入　 . 合理控制缓存空间大小，通常来讲其大小设置为几十兆比较合适　 . 能够经过SQL_CACHE和SQL_NO_CACHE来控制某个查询语句是否须要进行缓存　　最后的忠告是不要轻易打开查询缓存，特别是写密集型应用。若是你实在是忍不住，能够将query_cache_type设置为DEMAND，这时只有加入SQL_CACHE的查询才会走缓存，其余查询则不会，这样能够很是自由地控制哪些查询须要被缓存。　　固然查询缓存系统自己是很是复杂的，这里讨论的也只是很小的一部分，其余更深刻的话题，好比：缓存是如何使用内存的？如何控制内存的碎片化？事务对查询缓存有何影响等等，读者能够自行阅读相关资料，这里权当抛砖引玉吧。　　 语法解析和预处理

MySQL经过关键字将SQL语句进行解析，并生成一颗对应的解析树。这个过程解析器主要经过语法规则来验证和解析。好比SQL中是否使用了错误的关键字或者关键字的顺序是否正确等等。预处理则会根据MySQL规则进一步检查解析树是否合法。好比检查要查询的数据表和数据列是否存在等等。

7.系统内核参数优化

#基础配置
datadir=/data/datafile
socket=/var/lib/mysql/mysql.sock
log-error=/data/log/mysqld.log
pid-file=/var/run/mysqld/mysqld.pid
character_set_server=utf8
#容许任意IP访问
bind-address = 0.0.0.0
#是否支持符号连接，即数据库或表能够存储在my.cnf中指定datadir以外的分区或目录，为0不开启
#symbolic-links=0
#支持大小写
lower_case_table_names=1
#二进制配置
server-id = 1
log-bin = /data/log/mysql-bin.log
log-bin-index =/data/log/binlog.index
log_bin_trust_function_creators=1
expire_logs_days=7
#sql_mode定义了mysql应该支持的sql语法，数据校验等
#mysql5.0以上版本支持三种sql_mode模式：ANSI、TRADITIONAL和STRICT_TRANS_TABLES。
#ANSI模式：宽松模式，对插入数据进行校验，若是不符合定义类型或长度，对数据类型调整或截断保存，报warning警告。
#TRADITIONAL模式：严格模式，当向mysql数据库插入数据时，进行数据的严格校验，保证错误数据不能插入，报error错误。用于事物时，会进行事物的回滚。
#STRICT_TRANS_TABLES模式：严格模式，进行数据的严格校验，错误数据不能插入，报error错误。
sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION
#InnoDB存储数据字典、内部数据结构的缓冲池，16MB已经足够大了。
innodb_additional_mem_pool_size = 16M
#InnoDB用于缓存数据、索引、锁、插入缓冲、数据字典等
#若是是专用的DB服务器，且以InnoDB引擎为主的场景，一般可设置物理内存的60%
#若是是非专用DB服务器，能够先尝试设置成内存的1/4
innodb_buffer_pool_size = 4G
#InnoDB的log buffer，一般设置为 64MB 就足够了
innodb_log_buffer_size = 64M
#InnoDB redo log大小，一般设置256MB 就足够了
innodb_log_file_size = 256M
#InnoDB redo log文件组，一般设置为 2 就足够了
innodb_log_files_in_group = 2
#共享表空间:某一个数据库的全部的表数据，索引文件所有放在一个文件中，默认这个共享表空间的文件路径在data目录下。默认的文件名为:ibdata1 初始化为10M。
#独占表空间:每个表都将会生成以独立的文件方式来进行存储，每个表都有一个.frm表描述文件，还有一个.ibd文件。其中这个文件包括了单独一个表的数据内容以及索引内容，默认状况下它的存储位置也是在表的位置之中。
#设置参数为1启用InnoDB的独立表空间模式，便于管理
innodb_file_per_table = 1
#InnoDB共享表空间初始化大小，默认是 10MB，改为 1GB，而且自动扩展
innodb_data_file_path = ibdata1:1G:autoextend
#设置临时表空间最大4G
innodb_temp_data_file_path=ibtmp1:500M:autoextend:max:4096M
#启用InnoDB的status file，便于管理员查看以及监控
innodb_status_file = 1
#当设置为0，该模式速度最快，但不太安全，mysqld进程的崩溃会致使上一秒钟全部事务数据的丢失。
#当设置为1，该模式是最安全的，但也是最慢的一种方式。在mysqld 服务崩溃或者服务器主机crash的状况下，binary log 只有可能丢失最多一个语句或者一个事务。
#当设置为2，该模式速度较快，也比0安全，只有在操做系统崩溃或者系统断电的状况下，上一秒钟全部事务数据才可能丢失。
innodb_flush_log_at_trx_commit = 1
#设置事务隔离级别为 READ-COMMITED，提升事务效率，一般都知足事务一致性要求
#transaction_isolation = READ-COMMITTED
#max_connections：针对全部的帐号全部的客户端并行链接到MYSQL服务的最大并行链接数。简单说是指MYSQL服务可以同时接受的最大并行链接数。
#max_user_connections : 针对某一个帐号的全部客户端并行链接到MYSQL服务的最大并行链接数。简单说是指同一个帐号可以同时链接到mysql服务的最大链接数。设置为0表示不限制。
#max_connect_errors：针对某一个IP主机链接中断与mysql服务链接的次数，若是超过这个值，这个IP主机将会阻止从这个IP主机发送出去的链接请求。遇到这种状况，需执行flush hosts。
#执行flush host或者 mysqladmin flush-hosts，其目的是为了清空host cache里的信息。可适当加大，防止频繁链接错误后，前端host被mysql拒绝掉
#在 show global 里有个系统状态Max_used_connections,它是指从此次mysql服务启动到如今，同一时刻并行链接数的最大值。它不是指当前的链接状况，而是一个比较值。若是在过去某一个时刻，MYSQL服务同时有10
00个请求链接过来，而以后再也没有出现这么大的并发请求时，则Max_used_connections=1000.请注意与show variables 里的max_user_connections的区别。#Max_used_connections / max_connections * 100% ≈ 85%
max_connections=600
max_connect_errors=1000
max_user_connections=400
#设置临时表最大值，这是每次链接都会分配，不宜设置过大 max_heap_table_size 和 tmp_table_size 要设置同样大
max_heap_table_size = 100M
tmp_table_size = 100M
#每一个链接都会分配的一些排序、链接等缓冲，通常设置为 2MB 就足够了
sort_buffer_size = 2M
join_buffer_size = 2M
read_buffer_size = 2M
read_rnd_buffer_size = 2M
#建议关闭query cache，有些时候对性能反而是一种损害
query_cache_size = 0
#若是是以InnoDB引擎为主的DB，专用于MyISAM引擎的 key_buffer_size 能够设置较小，8MB 已足够
#若是是以MyISAM引擎为主，可设置较大，但不能超过4G
key_buffer_size = 8M
#设置链接超时阀值，若是前端程序采用短链接，建议缩短这2个值，若是前端程序采用长链接，可直接注释掉这两个选项，是用默认配置(8小时)
#interactive_timeout = 120
#wait_timeout = 120
#InnoDB使用后台线程处理数据页上读写I/0请求的数量,容许值的范围是1-64
#假设CPU是2颗4核的，且数据库读操做比写操做多，可设置
#innodb_read_io_threads=5
#innodb_write_io_threads=3
#经过show engine innodb status的FILE I/O选项可查看到线程分配
#设置慢查询阀值，单位为秒
long_query_time = 120
slow_query_log=1 #开启mysql慢sql的日志
log_output=table,File #日志输出会写表，也会写日志文件，为了便于程序去统计，因此最好写表
slow_query_log_file=/data/log/slow.log
##针对log_queries_not_using_indexes开启后，记录慢sql的频次、每分钟记录的条数
#log_throttle_queries_not_using_indexes = 5
##做为从库时生效,从库复制中如何有慢sql也将被记录
#log_slow_slave_statements = 1
##检查未使用到索引的sql
#log_queries_not_using_indexes = 1
#快速预热缓冲池
innodb_buffer_pool_dump_at_shutdown=1
innodb_buffer_pool_load_at_startup=1
#打印deadlock日志
innodb_print_all_deadlocks=1
复制代码

这些参数可按照本身的实际服务器以及数据库的大小进行适当调整，主要起参考做用

8.表字段优化

不少系统一开始并无考虑表字段拆分的问题，由于拆分会带来逻辑、部署、运维的各类复杂度，通常以整型值为主的表在千万级如下，字符串为主的表在五百万如下，而事实上不少时候MySQL单表的性能依然有很多优化空间，甚至能正常支撑千万级以上的数据量：

下面直接看下如何去优化字段

尽可能使用TINYINT、SMALLINT、MEDIUM_INT做为整数类型而非INT，若是非负则加上UNSIGNED
单表不要有太多字段，建议在15之内
尽可能使用TIMESTAMP而非DATETIME
使用枚举或整数代替字符串类型
VARCHAR的长度只分配真正须要的空间
避免使用NULL字段，很难查询优化且占用额外索引空间
用整型来存IP

9.分布式场景下经常使用优化手段

升级硬件

Scale up，这个很少说了，根据MySQL是CPU密集型仍是I/O密集型，经过提高CPU和内存、使用SSD，都能显著提高MySQL性能

读写分离

也是目前经常使用的优化，从库读主库写，通常不要采用双主或多主引入不少复杂性，尽可能采用文中的其余方案来提升性能。同时目前不少拆分的解决方案同时也兼顾考虑了读写分离

使用缓存

缓存能够发生在这些层次：

MySQL内部：在系统内核参数优化介绍了相关设置

数据访问层：好比MyBatis针对SQL语句作缓存，而Hibernate能够精确到单个记录，这里缓存的对象主要是持久化对象Persistence Object

应用服务层：这里能够经过编程手段对缓存作到更精准的控制和更多的实现策略，这里缓存的对象是数据传输对象Data Transfer Object

Web层：针对web页面作缓存

浏览器客户端：用户端的缓存

能够根据实际状况在一个层次或多个层次结合加入缓存。这里重点介绍下服务层的缓存实现，目前主要有两种方式：

直写式（Write Through）：在数据写入数据库后，同时更新缓存，维持数据库与缓存的一致性。这也是当前大多数应用缓存框架如Spring Cache的工做方式。这种实现很是简单，同步好，但效率通常。

回写式（Write Back）：当有数据要写入数据库时，只会更新缓存，而后异步批量的将缓存数据同步到数据库上。这种实现比较复杂，须要较多的应用逻辑，同时可能会产生数据库与缓存的不一样步，但效率很是高。
水平拆分：个人上篇文章有讲到，这里再也不赘述。

总结

其实MySQL的优化还有不少，有兴趣的能够读读MySQL高性能优化的书，但以上这些是在咱们实际生产环境中比较经常使用的优化手段，掌握这些，不是我吹，能吊打通常的面试官了，好了，这篇文章就到这里，若是对你有帮助，请点赞、收藏、评论、关注我，谢谢！

做者寄语

路漫漫其修远兮，吾愿与君上下而求索，很是感谢各位帅哥、靓妹的点赞、收藏和评论，咱们下期见。

关注我带你走进架构师的成长之路

源码地址：点此查看源码.

MySQL海量数据优化（理论+实战）

前言