Mysql --学习：大量数据快速导入导出

时间 2019-11-11

标签 mysql 学习大量数据快速导入导出栏目 MySQL 繁體版

原文原文链接

声明：此文供学习使用，原文：https://blog.csdn.net/xiaobaismiley/article/details/41015783 html

【实验背景】

项目中须要对数据库中一张表进行从新设计，主要是以前未分区，考虑到数据量大了之后要设计成分区表，同时要对数据库中其余表作好备份恢复的工做。mysql

【实验环境】

　　Mysql版本：mysql-5.6.19web

　　操做系统：Ubuntu 12.04sql

　　内存：32G数据库

　　CPU：24核 Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz缓存

　　数据：单表1.6亿条记录，大小为22GB，非分区表，表中包含一个索引，而且存在int型自增主键服务器

【导出导出工做准备】

　　（1）导出前关闭日志，避免数据备份过程当中频繁记录日志性能

　　（2）删除主键，关闭自动增加。在该表中主键其实做用不大，自动增加是须要的（mysql中自动增加的一列必定要为key，因此设置为主键），等待数据转移结束后从新设置回来学习

　　（3）删除表中索引。在插入数据时索引的存在会很大程度上影响速度，因此先关闭，转移后从新创建测试

　　（4）Mysql系统参数调优，以下：（具体含义后面给出）

innodb_data_file_path = ibdata1:1G:autoextend innodb_file_per_table = 1 innodb_thread_concurrency = 20 innodb_flush_log_at_trx_commit = 1 innodb_log_file_size = 256M innodb_log_files_in_group = 3 innodb_max_dirty_pages_pct = 50 innodb_lock_wait_timeout = 120 key_buffer_size=400M innodb_buffer_pool_size=4G innodb_additional_mem_pool_size=20M innodb_log_buffer_size=20M query_cache_size=40M read_buffer_size=4M read_rnd_buffer_size=8M tmp_table_size=16M max_allowed_packet = 32M

【操做方法及结果】

　　（1）create table t2 as select * from t1

CREATE TABLE dn_location3 PARTITION BY RANGE (UNIX_TIMESTAMP(UPLOADTIME)) ( PARTITION p141109 VALUES LESS THAN (UNIX_TIMESTAMP('2014-11-09 00:00:00')), PARTITION p141110 VALUES LESS THAN (UNIX_TIMESTAMP('2014-11-10 00:00:00')), PARTITION p141111 VALUES LESS THAN (UNIX_TIMESTAMP('2014-11-11 00:00:00')), PARTITION p141112 VALUES LESS THAN (UNIX_TIMESTAMP('2014-11-12 00:00:00')) ) as select * from dn_location where uploadtime > '2014-08-04'; create table t2 as select * from dn_location2;

　　as建立出来的t2表（新表）缺乏t1表（源表）的索引信息，只有表结构相同，没有索引。
此方法效率较高，在前面的实验环境下，42min内将一张表内4600W的数据转到一张新的表中，在create新表时我添加了分区的操做，所以新表成功建立为分区表，这样一步到位的既转移了数据又建立了分区表。此方法平均速度：6570W条/h ，至于该方法其余须要注意的地方，暂时没有去了解。

（2）使用MySQL的SELECT INTO OUTFILE 、Load data file

　　LOAD DATA INFILE语句从一个文本文件中以很高的速度读入一个表中。当用户一前一后地使用SELECT ... INTO OUTFILE 和LOAD DATA INFILE 将数据从一个数据库写到一个文件中，而后再从文件中将它读入数据库中时，两个命令的字段和行处理选项必须匹配。不然，LOAD DATA INFILE 将不能正确地解释文件内容。

假设用户使用SELECT ... INTO OUTFILE 以逗号分隔字段的方式将数据写入到一个文件中：

SELECT * INTO OUTFILE 'data.txt' FIELDS TERMINATED BY ',' FROM table2;

为了将由逗号分隔的文件读回时，正确的语句应该是：

LOAD DATA INFILE 'data.txt' INTO TABLE table2 FIELDS TERMINATED BY ',';

若是用户试图用下面所示的语句读取文件，它将不会工做，由于命令LOAD DATA INFILE 以定位符区分字段值：

LOAD DATA INFILE 'data.txt' INTO TABLE table2 FIELDS TERMINATED BY '\t';

下面是我用来导入导出的命令：

1 select * into outfile 'ddd.txt' fields terminated by ',' from dn_location; 2 load data infile 'ddd.txt' into table dn_location2 FIELDS TERMINATED BY ',';

　　经过该方法导出的数据，是将各字段（只有数据，不导出表结构）数据存在一个文件中，中间以逗号分隔，由于文件中并不包含数据库名或者表名，所以须要在导入导出的时候些明确。该方法在18分钟内导出1.6亿条记录，46min内导入6472W条记录，平均速度：8442W条/h。mysql官方文档也说明了，该方法比一次性插入一条数据性能快20倍。

【额外测试1】在新的表结构中增长主键，并增长某一列自增，查看主键索引对插入效率的影响

　　【结论】导出效率没有变化，导入效率35min中导入4600W条记录，平均速度：7886W/h，考虑到测试次数不多，不能直接下结论，但至少明确该操做不会有明显的效率降低。

【测试语句】

1 SELECT MOTOR_ID,LAT,LON,UPLOADTIME,RECEIVETIME,STATE_ID,SYS_STATE_ID,SPEED,DIR,A,GPRS,DISTANCE,WEEKDAY,GPSLOCATE INTO OUTFILE 'import2.txt' FROM dn_location3; 2 LOAD DATA INFILE 'import2.txt' INTO TABLE dn_location_withkey(MOTOR_ID,LAT,LON,UPLOADTIME,RECEIVETIME,STATE_ID,SYS_STATE_ID,SPEED,DIR,A,GPRS,DISTANCE,WEEKDAY,GPSLOCATE);

【额外测试2】在新建的表中对一个varchar类型字段增长索引，再往里导入数据，查看对插入效率的影响。

　　【结论】导入4600W条记录耗时47min，效率确实有所下降，比仅有主键索引的测试多了12分钟，从这里看插入效率排序：没有任何索引 > 主键索引 > 主键索引+其余索引。

【额外测试3】在新建表中不加索引导入数据，彻底导入后再建索引，查看创建索引时间

　　【结论】（1）表数据4600W，创建索引时间10min；表数据1.6亿条，创建索引时间41min，因而可知创建索引的时间与表的数据量有直接关系，其余影响因素比较少；（2）今后处看先插入数据再建索引与先建索引再批量插入数据时间上差距不大，前者稍快一些，开发中应根据实际状况选择。

（3）使用mysqldump ，source

mysqldump -u root -p -q -e -t webgps4 dn_location2 > dn_location2.sql mysqldump -u root -p -q -e -t --single-transaction webgps4 dn_location2 > dn_location2.sql source dn_location2.sql

　　以上是导入导出数据的语句，该方法15分钟导出1.6亿条记录，导出的文件中平均7070条记录拼成一个insert语句，经过source进行批量插入，导入1.6亿条数据耗时将近5小时。平均速度：3200W条/h。后来尝试加上--single-transaction参数，结果影响不大。另外，若在导出时增长-w参数，表示对导出数据进行筛选，那么导入导出的速度基本不变，筛选出的数据量越大，时间越慢而已。对于其中的参数这里进行说明：
–quick，-q
　　该选项在导出大表时颇有用，它强制 mysqldump 从服务器查询取得记录直接输出而不是取得全部记录后将它们缓存到内存中。

--extended-insert, -e
　　使用具备多个VALUES列的INSERT语法。这样使导出文件更小，并加速导入时的速度。默认为打开状态，使用--skip-extended-insert取消选项。

--single-transaction

　　该选项在导出数据以前提交一个BEGIN SQL语句，BEGIN 不会阻塞任何应用程序且能保证导出时数据库的一致性状态。它只适用于多版本存储引擎，仅InnoDB。本选项和--lock-tables 选项是互斥的，由于LOCK TABLES 会使任何挂起的事务隐含提交。要想导出大表的话，应结合使用--quick 选项。在本例子中没有起到加快速度的做用
　　mysqldump -uroot -p --host=localhost --all-databases --single-transaction

-t 仅导出表数据，不导出表结构

更多的mysqldump 参数说明请参考：http://blog.chinaunix.net/uid-26805356-id-4138986.html

更多的mysql 参数调优说明参考：http://blog.csdn.net/yang1982_0907/article/details/20123055

http://blog.csdn.net/nightelve/article/details/17393631

extended-insert对mysqldump及导入性能的影响 http://blog.csdn.net/hw_libo/article/details/39583247

参考资料：

http://www.tuicool.com/articles/6jEBJ3 mysql load data infile的使用和 SELECT into outfile备份数据库数据

http://kevin850115.iteye.com/blog/578142 Load Data使用方法

http://www.jb51.net/article/47525.htm mysql几种导入导出方法介绍