mysql分区性能测试

时间 2020-07-17

标签 mysql 分区性能测试栏目 MySQL 繁體版

原文原文链接

MySQL分区性能初探

一， 分区概念html

分区容许根据指定的规则，跨文件系统分配单个表的多个部分。表的不一样部分在不一样的位置被存储为单独的表。MySQL从5.1.3开始支持Partition。mysql

分区和手动分表对比jquery

手动分表	分区
多张数据表	一张数据表
重复数据的风险	没有数据重复的风险
写入多张表	写入一张表
没有统一的约束限制	强制的约束限制

MySQL支持RANGE，LIST，HASH，KEY分区类型，其中以RANGE最为经常使用：sql

Range（范围）–这种模式容许将数据划分不一样范围。例如能够将一个表经过年份划分红若干个分区。数据库
Hash（哈希）–这中模式容许经过对表的一个或多个列的Hash Key进行计算，最后经过这个Hash码不一样数值对应的数据区域进行分区。例如能够创建一个对表主键进行分区的表。缓存
Key（键值）-上面Hash模式的一种延伸，这里的Hash Key是MySQL系统产生的。服务器
List（预约义列表）–这种模式容许系统经过预约义的列表的值来对数据进行分割。 ide
Composite（复合模式） –以上模式的组合使用　函数

二，分区能作什么工具

逻辑数据分割
提升单一的写和读应用速度
提升分区范围读查询的速度
分割数据可以有多个不一样的物理文件路径
高效的保存历史数据
一个表上的约束检查
不一样的主从服务器分区策略，例如master按Hash分区，slave按range分区

三，分区的限制(截止5.1.44版)

• 只能对数据表的整型列进行分区，或者数据列能够经过分区函数转化成整型列

• 最大分区数目不能超过1024

• 若是含有惟一索引或者主键，则分区列必须包含在全部的惟一索引或者主键在内

• 不支持外键

• 不支持全文索引（fulltext）

按日期进行分区很很是适合，由于不少日期函数能够用。可是对于字符串来讲合适的分区函数不太多

四，何时使用分区

• 海量数据表

• 历史表快速的查询，能够采用ARCHIVE+PARTITION的方式。

• 数据表索引大于服务器有效内存

• 对于大表，特别是索引远远大于服务器有效内存时，能够不用索引，此时分区效率会更有效。

五，分区实验

实验一：

使用 US Bureau of Transportation Statistics发布的数据(CSV格式).目前, 包括 1.13 亿条记录，7.5 GB数据5.2 GB索引。时间从1987到2007。

服务器使用4GB内存，这样数据和索引的大小都超过了内存大小。设置为4GB缘由是数据仓库大小远远超过可能内存的大小，可能达几TB。对普通OLTP数据库来讲，索引缓存在内存中，能够快速检索。若是数据超出内存大小，须要使用不一样的方式。

建立有主键的表，由于一般表都会有主键。表的主键太大致使索引没法读入内存，这样通常来讲不是高效的，意味着要常常访问磁盘，访问速度彻底取决于你的磁盘和处理器。目前在设计很大的数据仓库里，有一种广泛的作法是不使用索引。因此也会比较有和没有主键的性能。

测试方法：

使用三种数据引擘MyISAM, InnoDB, Archive.
对于每一种引擘, 建立一个带主键的未分区表 (除了archive) 和两个分区表，一个按月一个按年。分区表分区方式以下：

CREATE TABLE by_year (

d DATE

)

PARTITION BY RANGE (YEAR(d))

(

PARTITION P1 VALUES LESS THAN (2001),

PARTITION P2 VALUES LESS THAN (2002),

PARTITION P3 VALUES LESS THAN (2003),

PARTITION P4 VALUES LESS THAN (MAXVALUE)

)

CREATE TABLE by_month (

d DATE

)

PARTITION BY RANGE (TO_DAYS(d))

(

PARTITION P1 VALUES LESS THAN (to_days(‘2001-02-01′)), — January

PARTITION P2 VALUES LESS THAN (to_days(‘2001-03-01′)), — February

PARTITION P3 VALUES LESS THAN (to_days(‘2001-04-01′)), — March

PARTITION P4 VALUES LESS THAN (MAXVALUE)

)

每个都在 mysql服务器上的单独的实例上测试, 每实例只有一个库一个表。每种引擘, 都会启动服务, 运行查询并记录结果, 而后关闭服务。服务实例经过MySQL Sandbox建立。

加载数据的状况以下：

ID	引擘	是否分区	数据	大小	备注	*加载时间 ()**
1	MyISAM	none	1.13亿	13 GB	with PK	37 min
2	MyISAM	by month	1.13亿	8 GB	without PK	19 min
3	MyISAM	by year	1.13亿	8 GB	without PK	18 min
4	InnoDB	none	1.13亿	16 GB	with PK	63 min
5	InnoDB	by month	1.13亿	10 GB	without PK	59 min
6	InnoDB	by year	1.13亿	10 GB	without PK	57 min
7	Archive	none	1.13亿	1.8 GB	no keys	20 min
8	Archive	by month	1.13亿	1.8 GB	no keys	21 min
9	Archive	by year	1.13亿	1.8 GB	no keys	20 min

*在dual-Xeon服务器上

为了对比分区在大的和小的数据集上的效果，建立了另外9个实例，每个包含略小于2GB的数据。

查询语句有两种

汇集查询

SELECT COUNT(*)

FROM table_name

WHERE date_column BETWEEN start_date and end_date

指定记录查询

SELECT column_list

FROM table_name

WHERE column1 = x and column2 = y and column3 = z

对于第一种查询，建立不一样的日期范围的语句。对于每个范围，建立一组额外的相同范围日期的查询。每一个日期范围的第一个查询是冷查询，意味着是第一次命中，随后的在一样范围内的查询是暖查询，意味着至少部分被缓存。查询语句在the Forge上。

结果：

1带主键的分区表

第一个测试使用复合主键，就像原始数据表使用的同样。主键索引文件达到5.5 GB. 能够看出，分区不只没有提升性能，主键还减缓了操做。由于若是使用主键索引查询，而索引又不能读入内存，则表现不好。提示咱们分区颇有用，可是必须使用得当。

+——–+—————–+—————–+—————–+

+——–+—————–+—————–+—————–+

| cold | 2.6574570285714 | 2.9169642 | 3.0373419714286 |

| warm | 2.5720722571429 | 3.1249698285714 | 3.1294000571429 |

+——–+—————–+—————–+—————–+

ARCHIVE引擘

+——–+—————-+—————–+—————–+

+——–+—————-+—————–+—————–+

| cold | 249.849563 | 1.2436211111111 | 12.632532527778 |

| warm | 235.814442 | 1.0889786388889 | 12.600520777778 |

+——–+—————-+—————–+—————–+

注意ARCHIVE引擘月分区的响应时间比使用MyISAM好。

2不带主键的分区表

由于若是主键的大小超出了可用的key buffer，甚至所有内存，全部使用主键的查询都会使用磁盘。新的方式只使用分区，不要主键。性能有显著的提升。

按月分区表获得了70%-90%的性能提升。

+——–+——————+——————+——————+

+——–+——————+——————+——————+

| cold | 2.6864490285714 | 0.64206445714286 | 2.6343286285714 |

| warm | 2.8157905714286 | 0.18774977142857 | 2.2084743714286 |

+——–+——————+——————+——————+

为了使区别更明显, 我使用了两个大规模查询，能够利用分区的分区消除功能。

# query 1 – 按年统计

SELECT year(FlightDate) as y, count(*)

FROM flightstats

WHERE FlightDate BETWEEN “2001-01-01″ and “2003-12-31″

GROUP BY y

# query 2 – 按月统计

SELECT date_format(FlightDate,”%Y-%m”) as m, count(*)

FROM flightstats

WHERE FlightDate BETWEEN “2001-01-01″ and “2003-12-31″

GROUP BY m

结果显示按月分区表有30%-60%，按年分区表有15%-30%性能提高。

+———-+———–+———–+———–+

| query_id | 不分 | 月分 | 年分 |

+———-+———–+———–+———–+

| 1 | 97.779958 | 36.296519 | 82.327554 |

| 2 | 69.61055 | 47.644986 | 47.60223 |

+———-+———–+———–+———–+

处理器因素

当以上测试在家用机(Intel Dual Core 2.3 MHz CPU)上测试的时候。对于原来的对于dual Xeon 2.66 MHz来讲，发现新服务器更快！。

重复上面的测试，使人吃惊:

+——–+——————-+————-+—————–+

+——–+——————-+————-+—————–+

| cold | 0.051063428571429 | 0.6577062 | 1.6663527428571 |

| warm | 0.063645485714286 | 0.1093724 | 1.2369152285714 |

+——–+——————-+————-+—————–+

myisam 不分区带主键的表比分区表更快. 分区表的表现和原来同样，但未分区表性能提升了，使得分区显得没必要要。既然这台服务器彷佛充分利用了索引的好处，我在分区表的分区列上加入了索引。

# 原始表

create table flightstats (

AirlineID int not null,

UniqueCarrier char(3) not null,

Carrier char(3) not null,

FlightDate date not null,

FlightNum char(5) not null,

TailNum char(8) not null,

ArrDelay double not null,

ArrTime datetime not null,

DepDelay double not null,

DepTime datetime not null,

Origin char(3) not null,

Dest char(3) not null,

Distance int not null,

Cancelled char(1) default ‘n’,

primary key (FlightDate, AirlineID, Carrier, UniqueCarrier, FlightNum, Origin, DepTime, Dest)

)

# 分区表

create table flightstats (

AirlineID int not null,

UniqueCarrier char(3) not null,

Carrier char(3) not null,

FlightDate date not null,

FlightNum char(5) not null,

TailNum char(8) not null,

ArrDelay double not null,

ArrTime datetime not null,

DepDelay double not null,

DepTime datetime not null,

Origin char(3) not null,

Dest char(3) not null,

Distance int not null,

Cancelled char(1) default ‘n’,

KEY (FlightDate)

)

PARTITION BY RANGE …

结果是让人满意的,获得35% 性能提升。

+——–+——————-+——————-+——————-+

+——–+——————-+——————-+——————-+

| cold | 0.075289714285714 | 0.025491685714286 | 0.072398542857143 |

| warm | 0.064401257142857 | 0.031563085714286 | 0.056638085714286 |

+——–+——————-+——————-+——————-+

结论：

1. 使用表分区并非性能提升的保证。它依赖于如下因素：

分区使用的列the column used for partitioning;
分区函数，若是原始字段不是int型;
服务器速度;
内存数量.

2. 在应用到生产系统前运行基准测试和性能测试

依赖于你的数据库的用途，你可能获得巨大的性能提升也可能一无所得。若是不当心，甚至有可能会下降性能。

好比：一个使用月分区的表，在老是进行日期范围查询时能够获得极优的速度。但若是没有日期查询，那么会进行全表扫描。

分区对于海量数据性能提升是一个关键的工具。什么才是海量的数据取决于部署的硬件。盲目使用分区不能保证提升性能，可是在前期基准测试和性能测试的帮助下，能够成为完美的解决方案。

3. Archive 表能够成为一个很好的折衷方案

Archive 表分区后能够获得巨大的性能提升。固然也依赖于你的用途，没有分区时任何查询都是全表扫描。若是你有不须要变动的历史数据，还要进行按时间的分析统计，使用Archive引擘是极佳的选择。它会使用10-20％的原空间，对于汇集查询有比MyISAM /InnoDB表更好的性能。

虽然一个很好的优化的分区MyISAM 表性能可能好于对应的Archive表, 可是须要10倍的空间。

实验二：

1.建两个表，一个按时间字段分区，一个不分区。

CREATE TABLE part_tab

(

c1 int default NULL,

c2 varchar(30) default NULL,

c3 date default NULL

) engine=myisam

PARTITION BY RANGE (year(c3)) (PARTITION p0 VALUES LESS THAN (1995),

PARTITION p1 VALUES LESS THAN (1996) , PARTITION p2 VALUES LESS THAN (1997) ,

PARTITION p3 VALUES LESS THAN (1998) , PARTITION p4 VALUES LESS THAN (1999) ,

PARTITION p5 VALUES LESS THAN (2000) , PARTITION p6 VALUES LESS THAN (2001) ,

PARTITION p7 VALUES LESS THAN (2002) , PARTITION p8 VALUES LESS THAN (2003) ,

PARTITION p9 VALUES LESS THAN (2004) , PARTITION p10 VALUES LESS THAN (2010),

PARTITION p11 VALUES LESS THAN MAXVALUE );

create table no_part_tab

(c1 int(11) default NULL,

c2 varchar(30) default NULL,

c3 date default NULL) engine=myisam;

2.建一个存储过程, 利用该过程向两个表插入各8百万条不一样数据。

delimiter //

CREATE PROCEDURE load_part_tab()

begin

declare v int default 0;

while v < 8000000

insert into part_tab

values (v,’testing partitions’,adddate(‘1995-01-01′,(rand(v)*36520) mod 3652));

set v = v + 1;

end while;

end

而后执行

mysql> delimiter ;

mysql> call load_part_tab();

Query OK, 1 row affected (8 min 17.75 sec)

mysql> insert into no_part_tab select * from part_tab;

Query OK, 8000000 rows affected (51.59 sec)

Records: 8000000 Duplicates: 0 Warnings: 0

3.开始对这两表中的数据进行简单的范围查询吧。并显示执行过程解析：

mysql> select count(*) from no_part_tab where c3 > date ‘1995-01-01′ and c3 < date ‘1995-12-31′;

+———-+

| count(*) |

+———-+

| 795181 |

+———-+

1 row in set (38.30 sec)

mysql> select count(*) from part_tab where c3 > date ‘1995-01-01′ and c3 < date ‘1995-12-31′;

+———-+

| count(*) |

+———-+

| 795181 |

+———-+

1 row in set (3.88 sec)

mysql> explain select count(*) from no_part_tab where c3 > date ‘1995-01-01′ and c3 < date ‘1995-12-31′\G

*************************** 1. row ***************************

id: 1

select_type: SIMPLE

table: no_part_tab

type: ALL

possible_keys: NULL

key: NULL

key_len: NULL

ref: NULL

rows: 8000000

Extra: Using where

1 row in set (0.00 sec)

mysql> explain partitions select count(*) from part_tab where

-> c3 > date ‘1995-01-01′ and c3 < date ‘1995-12-31′\G

*************************** 1. row ***************************

id: 1

select_type: SIMPLE

table: part_tab

partitions: p1

type: ALL

possible_keys: NULL

key: NULL

key_len: NULL

ref: NULL

rows: 798458

Extra: Using where

1 row in set (0.00 sec)

从上面结果能够看出，使用表分区比非分区的减小90％的响应时间。命令解析Explain程序能够看出在对已分区的表的查询过程当中仅对第一个分区进行了扫描，其他跳过。进一步测试：

– 增长日期范围

mysql> select count(*) from no_part_tab where c3 > date ‘-01-01′and c3 < date ‘1997-12-31′;

+———-+

| count(*) |

+———-+

| 2396524 |

+———-+

1 row in set (5.42 sec)

mysql> select count(*) from part_tab where c3 > date ‘-01-01′and c3 < date ‘1997-12-31′;

+———-+

| count(*) |

+———-+

| 2396524 |

+———-+

1 row in set (2.63 sec)

– 增长未索引字段查询

mysql> select count(*) from part_tab where c3 > date ‘-01-01′and c3 < date

‘1996-12-31′ and c2=’hello’;

+———-+

| count(*) |

+———-+

| 0 |

+———-+

1 row in set (0.75 sec)

mysql> select count(*) from no_part_tab where c3 > date ‘-01-01′and c3 < date ‘1996-12-31′ and c2=’hello’;

+———-+

| count(*) |

+———-+

| 0 |

+———-+

1 row in set (11.52 sec)

结论：

分区和未分区占用文件空间大体相同（数据和索引文件）
若是查询语句中有未创建索引字段，分区时间远远优于未分区时间
若是查询语句中字段创建了索引，分区和未分区的差异缩小，分区略优于未分区。
对于大数据量，建议使用分区功能。
去除没必要要的字段
根据手册，增长myisam_max_sort_file_size 会增长分区性能