MySQL 千万级数据表 partition 实战应用

目前系统的 Stat 表以天天 20W 条的数据量增长,尽管已经把超过3个月的数据 dump 到其余地方,但表中仍然有接近 2KW 条数据,容量接近 2GB。sql

Stat 表已经加上索引,直接 select … where … limit 的话,速度仍是很快的,但一旦涉及到 group by 分页,就会变得很慢。数据库

据观察,7天内的 group by 须要 35~50s 左右。运营反映体验极其不友好。 因而上网搜索 MySQL 分区方案。发现网上的基本上都是在系统性地讲解 partition 的概念和种类,以及一些实验性质的效果,并不贴近实战。spa

经过参考 MySQL手册以及本身的摸索,最终在当前系统中实现了分区,由于记录一下。code

分区类型的选择

Stat 表自己是一个统计报表,因此它的数据都是按日期来存放的,而且热数据通常只限于当天,以及7天内。因此我选择了 Range 类型来进行分区。索引

为当前表建立分区

由于是对已有表进行改造,因此只能用 alter 的方式:string

ALTER TABLE stat
    PARTITION BY RANGE(TO_DAYS(dt)) (
        PARTITION p0 VALUES LESS THAN(0),
        PARTITION p190214 VALUES LESS THAN(TO_DAYS('2019-02-14')),
        PARTITION pm VALUES LESS THAN(MAXVALUE)
    );
复制代码

这里有2点要注意:it

一是 p0 分区,这是由于 MySQL(我是5.7版) 有个 bug,就是无论你查的数据在哪一个区,它都会扫一下第一个区,咱们每一个区的数据都有几十万条,扫一下非常肉疼啊,因此为了不没必要要的扫描,直接弄个0数据分区就好了。io

二是 pm 分区,这个是最大分区。假如不要 pm,那你存 2019-02-15 的数据就会报错。因此 pm 其实是给将来的数据一个预留的分区。table

按期扩展分区

因为 MySQL 的分区并不能本身动态扩容,因此咱们要写个代码为它动态的增长分区。class

增长分区须要用到 REORGANIZE 命令,它的做用是对某个分区从新分配。 好比明天是 15 号,那咱们要给 15 号也增长个分区,实际上就是把 pm 分区拆分红2个分区:

ALTER TABLE stat
    REORGANIZE PARTITION pm INTO (
        PARTITION p190215 VALUES LESS THAN(TO_DAYS('2019-02-15')),
        PARTITION pm VALUES LESS THAN(MAXVALUE)
    );
复制代码

这里就涉及到一个问题,即如何得到当前表的全部分区?网上有挺多方法,但我试了下感受仍是先 show create table stat 而后用正则匹配出全部分区更方便一点。

按期删除分区

随着数据库愈来愈大,咱们确定是要清除旧的数据,同时也要清除旧的分区。 这个也比较简单:

ALTER TABLE stat DROP PARTITION p190214, p190215
复制代码
相关文章
相关标签/搜索