当 MySQL 单表记录数过大时,增删改查性能都会急剧降低,本文会提供一些优化参考,你们能够参考如下步骤来优化。html

单表优化
除非单表数据将来会一直不断上涨,不然不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各类复杂度。前端
通常以整型值为主的表在千万级如下,字符串为主的表在五百万如下是没有太大问题的。node
而事实上不少时候 MySQL 单表的性能依然有很多优化空间,甚至能正常支撑千万级以上的数据量。mysql
字段
关于字段:git
- 尽可能使用 TINYINT、SMALLINT、MEDIUM_INT 做为整数类型而非 INT,若是非负则加上 UNSIGNED。
- VARCHAR 的长度只分配真正须要的空间。
- 使用枚举或整数代替字符串类型。
- 尽可能使用 TIMESTAMP 而非 DATETIME。
- 单表不要有太多字段,建议在 20 之内。
- 避免使用 NULL 字段,很难查询优化且占用额外索引空间。
- 用整型来存 IP。
索引
关于索引:github
- 索引并非越多越好,要根据查询有针对性的建立,考虑在 WHERE 和 ORDER BY 命令上涉及的列创建索引,可根据 EXPLAIN 来查看是否用了索引仍是全表扫描。
- 应尽可能避免在 WHERE 子句中对字段进行 NULL 值判断,不然将致使引擎放弃使用索引而进行全表扫描。
- 值分布很稀少的字段不适合建索引,例如“性别”这种只有两三个值的字段。
- 字符字段只建前缀索引。
- 字符字段最好不要作主键。
- 不用外键,由程序保证约束。
- 尽可能不用 UNIQUE,由程序保证约束。
- 使用多列索引时注意顺序和查询条件保持一致,同时删除没必要要的单列索引。
查询 SQL
关于查询 SQL:sql
- 可经过开启慢查询日志来找出较慢的 SQL。
- 不作列运算:SELECT id WHERE age + 1 = 10,任何对列的操做都将致使表扫描,它包括数据库教程函数、计算表达式等等,查询时要尽量将操做移至等号右边。
- SQL 语句尽量简单:一条 SQL只能在一个 CPU 运算;大语句拆小语句,减小锁时间;一条大 SQL 能够堵死整个库。
- 不用SELECT *。
- OR 改写成 IN:OR 的效率是 n 级别,IN 的效率是 log(n) 级别,IN 的个数建议控制在 200 之内。
- 不用函数和触发器,在应用程序实现。
- 避免 %xxx 式查询。
- 少用 JOIN。
- 使用同类型进行比较,好比用 '123' 和 '123' 比,123 和 123 比。
- 尽可能避免在 WHERE 子句中使用!=或<>操做符,不然引擎将放弃使用索引而进行全表扫描。
- 对于连续数值,使用 BETWEEN 不用 IN:SELECT id FROM t WHERE num BETWEEN 1 AND 5。
- 列表数据不要拿全表,要使用 LIMIT 来分页,每页数量也不要太大。
引擎
目前普遍使用的是 MyISAM 和 InnoDB 两种引擎:数据库
MyISAM编程
MyISAM 引擎是 MySQL 5.1 及以前版本的默认引擎,它的特色是:后端
- 不支持行锁,读取时对须要读到的全部表加锁,写入时则对表加排它锁。
- 不支持事务。
- 不支持外键。
- 不支持崩溃后的安全恢复。
- 在表有读取查询的同时,支持往表中插入新纪录。
- 支持 BLOB 和 TEXT 的前 500 个字符索引,支持全文索引。
- 支持延迟更新索引,极大提高写入性能。
- 对于不会进行修改的表,支持压缩表,极大减小磁盘空间占用。
InnoDB
InnoDB 在 MySQL 5.5 后成为默认索引,它的特色是:
- 支持行锁,采用 MVCC 来支持高并发。
- 支持事务。
- 支持外键。
- 支持崩溃后的安全恢复。
- 不支持全文索引。
PS:听说 InnoDB 已经在 MySQL 5.6.4 支持全文索引了。
整体来说,MyISAM 适合 SELECT 密集型的表,而 InnoDB 适合 INSERT 和 UPDATE 密集型的表。
系统调优参数
可使用下面几个工具来作基准测试:
调优参数内容较多,具体可参考官方文档,这里介绍一些比较重要的参数:
- back_log:back_log 值能够指出在 MySQL 暂时中止回答新请求以前的短期内多少个请求能够被存在堆栈中。
也就是说,若是 MySQL 的链接数据达到 max_connections 时,新来的请求将会被存在堆栈中,以等待某一链接释放资源,该堆栈的数量即 back_log,若是等待链接的数量超过 back_log,将不被授予链接资源。能够从默认的 50 升至 500。
- wait_timeout:数据库链接闲置时间,闲置链接会占用内存资源。能够从默认的 8 小时减到半小时。
- max_user_connection:最大链接数,默认为 0 无上限,最好设一个合理上限。
- thread_concurrency:并发线程数,设为 CPU 核数的两倍。
- skip_name_resolve:禁止对外部链接进行 DNS 解析,消除 DNS 解析时间,但须要全部远程主机用 IP 访问。
- key_buffer_size:索引块的缓存大小,增长会提高索引处理速度,对 MyISAM 表性能影响最大。
对于内存 4G 左右,可设为 256M 或 384M,经过查询 show status like 'key_read%',保证 key_reads / key_read_requests 在 0.1% 如下最好。
innodb_buffer_pool_size:缓存数据块和索引块,对 InnoDB 表性能影响最大。
经过查询 show status like 'Innodb_buffer_pool_read%',保证 (Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests 越高越好。
- innodb_additional_mem_pool_size:InnoDB 存储引擎用来存放数据字典信息以及一些内部数据结构的内存空间大小。
当数据库对象很是多的时候,适当调整该参数的大小以确保全部数据都能存放在内存中提升访问效率,当太小的时候,MySQL 会记录 Warning 信息到数据库的错误日志中,这时就须要调整这个参数大小。
- innodb_log_buffer_size:InnoDB 存储引擎的事务日志所使用的缓冲区,通常来讲不建议超过 32MB。
- query_cache_size:缓存 MySQL 中的 ResultSet,也就是一条 SQL 语句执行的结果集,因此仅仅只能针对 Select 语句。
当某个表的数据有任何变化,都会致使全部引用了该表的 Select 语句在 Query Cache 中的缓存数据失效。
因此,当咱们数据变化很是频繁的状况下,使用 Query Cache 可能得不偿失。
根据命中率(Qcache_hits/(Qcache_hits+Qcache_inserts)*100))进行调整,通常不建议太大,256MB 可能已经差很少了,大型的配置型静态数据可适当调大。能够经过命令 show status like 'Qcache_%' 查看目前系统 Query Cache 使用大小。
- read_buffer_size:MySQL 读入缓冲区大小。对表进行顺序扫描的请求将分配一个读入缓冲区,MySQL 会为它分配一段内存缓冲区。
若是对表的顺序扫描请求很是频繁,能够经过增长该变量值以及内存缓冲区大小提升其性能。
- sort_buffer_size:MySQL 执行排序使用的缓冲大小。若是想要增长 ORDER BY 的速度,首先看是否可让 MySQL 使用索引而不是额外的排序阶段。若是不能,能够尝试增长 sort_buffer_size 变量的大小。
- read_rnd_buffer_size:MySQL 的随机读缓冲区大小。当按任意顺序读取行时(例如按照排序顺序),将分配一个随机读缓存区。
进行排序查询时,MySQL 会首先扫描一遍该缓冲,以免磁盘搜索,提升查询速度,若是须要排序大量数据,可适当调高该值。
但 MySQL 会为每一个客户链接发放该缓冲空间,因此应尽可能适当设置该值,以免内存开销过大。
- record_buffer:每一个进行一个顺序扫描的线程为其扫描的每张表分配这个大小的一个缓冲区。若是你作不少顺序扫描,可能想要增长该值。
- thread_cache_size:保存当前没有与链接关联可是准备为后面新的链接服务的线程,能够快速响应链接的线程请求而无需建立新的。
table_cache:相似于 thread_cache _size,但用来缓存表文件,对 InnoDB 效果不大,主要用于 MyISAM。
升级硬件
Scale Up,这个很少说了,根据 MySQL 是 CPU 密集型仍是 I/O 密集型,经过提高 CPU 和内存、使用 SSD,都能显著提高 MySQL 性能。
读写分离
也是目前经常使用的优化,从库读主库写,通常不要采用双主或多主引入不少复杂性,尽可能采用文中的其余方案来提升性能。同时目前不少拆分的解决方案同时也兼顾考虑了读写分离。
缓存
缓存能够发生在这些层次:
- MySQL 内部:在系统调优参数介绍了相关设置。
- 数据访问层:好比 MyBatis 针对 SQL 语句作缓存,而 Hibernate 能够精确到单个记录,这里缓存的对象主要是持久化对象 Persistence Object。
- 应用服务层:能够经过编程手段对缓存作到更精准的控制和更多的实现策略,这里缓存的对象是数据传输对象 Data Transfer Object。
- Web 层:针对 Web 页面作缓存。
- 浏览器客户端:用户端的缓存。
能够根据实际状况在一个层次或多个层次结合加入缓存。这里重点介绍下服务层的缓存实现。
目前主要有两种方式:
- 直写式(Write Through):在数据写入数据库后,同时更新缓存,维持数据库与缓存的一致性。
这也是当前大多数应用缓存框架如 Spring Cache 的工做方式。这种实现很是简单,同步好,但效率通常。
- 回写式(Write Back):当有数据要写入数据库时,只会更新缓存,而后异步批量的将缓存数据同步到数据库上。
这种实现比较复杂,须要较多的应用逻辑,同时可能会产生数据库与缓存的不一样步,但效率很是高。
表分区
MySQL 在 5.1 版引入的分区是一种简单的水平拆分,用户须要在建表的时候加上分区参数,对应用是透明的无需修改代码。
对用户来讲,分区表是一个独立的逻辑表,可是底层由多个物理子表组成,实现分区的代码其实是经过对一组底层表的对象封装,但对 SQL 层来讲是一个彻底封装底层的黑盒子。
MySQL 实现分区的方式也意味着索引也是按照分区的子表定义,没有全局索引。

用户的 SQL 语句是须要针对分区表作优化,SQL 条件中要带上分区条件的列,从而使查询定位到少许的分区上,不然就会扫描所有分区。
能够经过 EXPLAIN PARTITIONS 来查看某条 SQL 语句会落在那些分区上,从而进行 SQL 优化。
以下图 5 条记录落在两个分区上:
mysql> explain partitions select count(1) from user_partition where id in (1,2,3,4,5);
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
| 1 | SIMPLE | user_partition | p1,p4 | range | PRIMARY | PRIMARY | 8 | NULL | 5 | Using where; Using index |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
1 row in set (0.00 sec)
分区的好处是:
- 可让单表存储更多的数据。
- 分区表的数据更容易维护,能够通清除整个分区批量删除大量数据,也能够增长新的分区来支持新插入的数据。另外,还能够对一个独立分区进行优化、检查、修复等操做。
- 部分查询可以从查询条件肯定只落在少数分区上,速度会很快。
- 分区表的数据还能够分布在不一样的物理设备上,从而高效利用多个硬件设备。
- 可使用分区表来避免某些特殊瓶颈,例如 InnoDB 单个索引的互斥访问、 ext3 文件系统的 inode 锁竞争。
- 能够备份和恢复单个分区。
分区的限制和缺点:
- 一个表最多只能有 1024 个分区。
- 若是分区字段中有主键或者惟一索引的列,那么全部主键列和惟一索引列都必须包含进来。
- 分区表没法使用外键约束。
- NULL 值会使分区过滤无效。
- 全部分区必须使用相同的存储引擎。
分区的类型:
- RANGE 分区:基于属于一个给定连续区间的列值,把多行分配给分区。
- LIST 分区:相似于按 RANGE 分区,区别在于 LIST 分区是基于列值匹配一个离散值集合中的某个值来进行选择。
- HASH 分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数能够包含 MySQL 中有效的、产生非负整数值的任何表达式。
- KEY 分区:相似于按 HASH 分区,区别在于 KEY 分区只支持计算一列或多列,且 MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值。
分区适合的场景有:最适合的场景数据的时间序列性比较强,则能够按时间来分区。
以下所示:
CREATE TABLE members (
firstname VARCHAR(25) NOT NULL,
lastname VARCHAR(25) NOT NULL,
username VARCHAR(16) NOT NULL,
email VARCHAR(35),
joined DATE NOT NULL
)PARTITION BY RANGE( YEAR(joined) ) (
PARTITION p0 VALUES LESS THAN (1960),
PARTITION p1 VALUES LESS THAN (1970),
PARTITION p2 VALUES LESS THAN (1980),
PARTITION p3 VALUES LESS THAN (1990),
PARTITION p4 VALUES LESS THAN MAXVALUE
);
查询时加上时间范围条件的效率会很是高,同时对于不须要的历史数据能很容易的批量删除。
若是数据有明显的热点,并且除了这部分数据,其余数据不多被访问到,那么能够将热点数据单独放在一个分区,让这个分区的数据可以有机会都缓存在内存中,查询时只访问一个很小的分区表,可以有效使用索引和缓存。
另外 MySQL 有一种早期的简单的分区实现 - 合并表(merge table),限制较多且缺少优化,不建议使用,应该用新的分区机制来替代。
垂直拆分
垂直分库是根据数据库里面的数据表的相关性进行拆分,好比:一个数据库里面既存在用户数据,又存在订单数据,那么垂直拆分能够把用户数据放到用户库、把订单数据放到订单库。
垂直分表是对数据表进行垂直拆分的一种方式,常见的是把一个多字段的大表按经常使用字段和很是用字段进行拆分,每一个表里面的数据记录数通常状况下是相同的,只是字段不同,使用主键关联。
好比原始的用户表是:

垂直拆分后是:

垂直拆分的优势是:
- 可使得行数据变小,一个数据块(Block)就能存放更多的数据,在查询时就会减小 I/O 次数(每次查询时读取的 Block 就少)。
- 能够达到最大化利用 Cache 的目的,具体在垂直拆分的时候能够将不常变的字段放一块儿,将常常改变的放一块儿。
- 数据维护简单。
缺点是:
- 主键出现冗余,须要管理冗余列。
- 会引发表链接 JOIN 操做(增长 CPU 开销)能够经过在业务服务器上进行 JOIN 来减小数据库压力。
- 依然存在单表数据量过大的问题(须要水平拆分)。
- 事务处理复杂。
水平拆分
水平拆分是经过某种策略将数据分片来存储,分库内分表和分库两部分,每片数据会分散到不一样的 MySQL 表或库,以达到分布式的效果,可以支持很是大的数据量。前面的表分区本质上也是一种特殊的库内分表。
库内分表,因为没有把表的数据分布到不一样的机器上,仅仅是单纯的解决了单一表数据过大的问题。
所以对于减轻 MySQL 服务器的压力来讲,并无太大的做用,你们仍是竞争同一个物理机上的 IO、CPU、网络,这个就要经过分库来解决。
前面垂直拆分的用户表若是进行水平拆分,结果是:

实际状况中每每会是垂直拆分和水平拆分的结合,即将 Users_A_M 和 Users_N_Z 再拆成 Users 和 UserExtras,这样一共四张表。
水平拆分的优势是:
- 不存在单库大数据和高并发的性能瓶颈。
- 应用端改造较少。
- 提升了系统的稳定性和负载能力。
缺点是:
- 分片事务一致性难以解决。
- 跨节点 JOIN 性能差,逻辑复杂。
- 数据屡次扩展难度跟维护量极大。
分片原则
分片原则以下:
- 能不分就不分,参考单表优化。
- 分片数量尽可能少,分片尽可能均匀分布在多个数据结点上,由于一个查询 SQL 跨分片越多,则整体性能越差,虽然要好于全部数据在一个分片的结果,只在必要的时候进行扩容,增长分片数量。
- 分片规则须要慎重选择作好提早规划,分片规则的选择,须要考虑数据的增加模式,数据的访问模式,分片关联性问题,以及分片扩容问题。
- 最近的分片策略为范围分片,枚举分片,一致性 Hash 分片,这几种分片都有利于扩容。
- 尽可能不要在一个事务中的 SQL 跨越多个分片,分布式事务一直是个很差处理的问题。
- 查询条件尽可能优化,尽可能避免 Select * 的方式,大量数据结果集下,会消耗大量带宽和 CPU 资源,查询尽可能避免返回大量结果集,而且尽可能为频繁使用的查询语句创建索引。
- 经过数据冗余和表分区来下降跨库 JOIN 的可能。
这里特别强调一下分片规则的选择问题,若是某个表的数据有明显的时间特征,好比订单、交易记录等。
他们一般比较合适用时间范围分片,由于具备时效性的数据,咱们每每关注其近期的数据,查询条件中每每带有时间字段进行过滤。
比较好的方案是,当前活跃的数据,采用跨度比较短的时间段进行分片,而历史性的数据,则采用比较长的跨度存储。
整体上来讲,分片的选择是取决于最频繁的查询 SQL 的条件,由于不带任何 Where 语句的查询 SQL,会遍历全部的分片,性能相对最差,所以这种 SQL 越多,对系统的影响越大,因此咱们要尽可能避免这种 SQL 的产生。
解决方案
因为水平拆分牵涉的逻辑比较复杂,当前也有了很多比较成熟的解决方案。这些方案分为两大类:客户端架构和代理架构。
客户端架构
经过修改数据访问层,如 JDBC、Data Source、MyBatis,经过配置来管理多个数据源,直连数据库,并在模块内完成数据的分片整合,通常以 Jar 包的方式呈现。
这是一个客户端架构的例子:

能够看到分片的实现是和应用服务器在一块儿的,经过修改 Spring JDBC 层来实现。
客户端架构的优势是:
- 应用直连数据库,下降外围系统依赖所带来的宕机风险。
- 集成成本低,无需额外运维的组件。
缺点是:
- 限于只能在数据库访问层上作文章,扩展性通常,对于比较复杂的系统可能会力不从心。
- 将分片逻辑的压力放在应用服务器上,形成额外风险。
代理架构
经过独立的中间件来统一管理全部数据源和数据分片整合,后端数据库集群对前端应用程序透明,须要独立部署和运维代理组件。
这是一个代理架构的例子:

代理组件为了分流和防止单点,通常以集群形式存在,同时可能须要 ZooKeeper 之类的服务组件来管理。
代理架构的优势是:
- 可以处理很是复杂的需求,不受数据库访问层原来实现的限制,扩展性强。
- 对于应用服务器透明且没有增长任何额外负载。
缺点是:
- 需部署和运维独立的代理中间件,成本高。
- 应用需通过代理来链接数据库,网络上多了一跳,性能有损失且有额外风险。

目前来讲,业界仍是有不少的方案可供选择,但应该如何进行选择?我认为,能够按如下思路来考虑:
- 肯定是使用客户端架构仍是代理架构。中小型规模或是比较简单的场景倾向于选择客户端架构,复杂场景或大规模系统倾向选择代理架构。
- 具体功能是否知足,好比须要跨节点 ORDER BY,那么支持该功能的优先考虑。
- 不考虑一年内没有更新的产品,说明开发停滞,甚至无人维护和技术支持。
- 最好按大公司→社区→小公司→我的这样的出品方顺序来选择。
- 选择口碑较好的,好比 Github 星数、使用者数量质量和使用者反馈。
- 开源的优先,每每项目有特殊需求可能须要改动源代码。
按照上述思路,推荐如下选择:
- 客户端架构:ShardingJDBC
- 代理架构:MyCat 或者 Atlas
兼容 MySQL 且可水平扩展的数据库
目前也有一些开源数据库兼容 MySQL 协议,如:
但其工业品质和 MySQL 尚有差距,且须要较大的运维投入,若是想将原始的 MySQL 迁移到可水平扩展的新数据库中,能够考虑一些云数据库:
- 阿里云 PetaData
- 阿里云 OceanBase
- 腾讯云 DCDB
NoSQL
在 MySQL 上作 Sharding 是一种戴着镣铐的跳舞,事实上不少大表自己对 MySQL 这种 RDBMS 的需求并不大,并不要求 ACID。
能够考虑将这些表迁移到 NoSQL,完全解决水平扩展问题,例如:
- 日志类、监控类、统计类数据
- 非结构化或弱结构化数据
- 对事务要求不强,且无太多关联操做的数据
来源:请叫我头头哥