大批量数据高效插入数据库表

时间 2019-12-10

原文原文链接

　　对于一些数据量较大的系统，数据库面临的问题除了查询效率低下，还有就是数据入库时间长。特别像报表系统，天天花费在数据导入上的时间可能会长达几个小时或十几个小时之久。所以，优化数据库插入性能是颇有意义的。
java

通过对MySQL InnoDB的一些性能测试，发现一些能够提升insert效率的方法，供你们参考参考。mysql

一、一条SQL语句插入多条数据

经常使用的插入语句如：sql

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('1', 'userid_1', 'content_1', 1);

修改为：数据库

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0), ('1', 'userid_1', 'content_1', 1);

　　修改后的插入操做可以提升程序的插入效率。这里第二种SQL执行效率高的主要缘由是: (1)经过合并SQL语句，同时也能减小SQL语句解析的次数，减小了数据库链接的I/O开销，通常会把多条数据插入放在一条SQL语句中一次执行; (2)合并后日志量（MySQL的binlog和innodb的事务让日志）减小了，下降日志刷盘的数据量和频率，从而提升效率。
　　这里提供一些测试对比数据，分别是进行单条数据的导入与转化成一条SQL语句进行导入，分别测试1百、1千、1万条数据记录。性能

　　批量插入的确是比一条条插入效率高的多测试

　　批量插入若是数据量太大可能出现下面的状况：优化

　　MySQL报错:Packets larger than max_allowed_packet are not allowed （经过修改max_allowed_packet的值来解决，show VARIABLES like '%max_allowed_packet%';）ui

二、在事务中进行插入处理。

把插入修改为：url

START TRANSACTION; INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1); ... COMMIT;

　　使用事务能够提升数据的插入效率，这是由于进行一个INSERT操做时，MySQL内部会创建一个事务，在事务内才进行真正插入处理操做。经过使用事务能够减小建立事务的消耗，全部插入都在执行后才进行提交操做。
　　这里也提供了测试对比，分别是不使用事务与使用事务在记录数为1百、1千、1万的状况。spa

三、数据有序插入

数据有序的插入是指插入记录在主键上是有序排列，例如datetime是记录的主键：

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('2', 'userid_2', 'content_2',2);

修改为：

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('2', 'userid_2', 'content_2',2);

　　因为数据库插入时，须要维护索引数据，无序的记录会增大维护索引的成本。咱们能够参照InnoDB使用的B+tree索引，若是每次插入记录都在索引的最后面，索引的定位效率很高，而且对索引调整较小；若是插入的记录在索引中间，须要B+tree进行分裂合并等处理，会消耗比较多计算资源，而且插入记录的索引定位效率会降低，数据量较大时会有频繁的磁盘操做。
　　下面提供随机数据与顺序数据的性能对比，分别是记录为1百、1千、1万、10万、100万。

从测试结果来看，该优化方法的性能有所提升，可是提升并非很明显。

四、性能综合测试

这里提供了同时使用上面三种方法进行INSERT效率优化的测试。

　　从测试结果能够看到，合并数据+事务的方法在较小数据量时，性能提升是很明显的，数据量较大时（1千万以上），性能会急剧降低，这是因为此时数据量超过了innodb_buffer的容量，每次定位索引涉及较多的磁盘读写操做，性能降低较快。而使用合并数据+事务+有序数据的方式在数据量达到千万级以上表现依旧是良好，在数据量较大时，有序数据索引定位较为方便，不须要频繁对磁盘进行读写操做，因此能够维持较高的性能。

注意事项：

SQL语句是有长度限制，在进行数据合并在同一SQL中务必不能超过SQL长度限制，经过max_allowed_packet配置能够修改，默认是1M，测试时修改成8M。
事务须要控制大小，事务太大可能会影响执行的效率。MySQL有innodb_log_buffer_size配置项，超过这个值会把innodb的数据刷到磁盘中，这时，效率会有所降低。因此比较好的作法是，在数据达到这个这个值前进行事务提交。

数据批量操做

批量执行更新sql语句的优缺点分析：

状况一：mysql 默认是autocommit＝on也就是默认开启自动提交事务。这种状况下，一条sql就会开启一个事务，这时候同时执行一万条update，就会致使实际开启一万个事务，而后挨个执行，挨个开启，挨个提交。

缺点：同时锁住数据较少，可是数据库资源占用严重，对外提供操做性能急剧降低。

状况二：当autocommit＝off时，同时执行一万条update，那么只会开启一个事务，等到全部都update后，一并commit。

缺点：同时锁住数据较多，外面的select进不来，大量链接等待获取行锁，一样影响数据库对外服务能力。

最终优化方案：

　　建议，把autocommit设置off，而后执行update的时候，手动分批commit，分批条数限制100，或者200，好比一万条update，按照每100条就commit一次，10000个update总共须要100个事务，每次锁住100条数据。性能将会获得很大提高。

　　固然，选择多少条手动commit，这个须要根据各自业务实际状况而定。

/**
	 * 对数据库进行批量插入数据操做
	 * 执行次数100万
	 */
	public void insertBatch() {
		//思路：将100万条数据分红n等份，1等份为1000条数据
		//如何实现？
		//一、必须将Connection接口的自动提交方式改成手动
		//二、利用Statement接口中的以下三个方法：addBatch、clearBath、executeBatch
		try {
			conn = DriverManager.getConnection(url, username, password);
			conn.setAutoCommit(false);
			stmt = conn.createStatement();
			for (int i = 0; i < 1000000; i++) {
				String sql = "insert into batch values ('"+i+"', '第"+i+"条数据')";
				//利用addBatch方法将SQL语句加入到stmt对象中
				stmt.addBatch(sql);
				if (i % 1000 == 0 && i != 0) {
					//利用executeBatch方法执行1000条SQL语句
					stmt.executeBatch();
					stmt.clearBatch();
					conn.commit();
				}
			}
			stmt.executeBatch();
			stmt.clearBatch();
			conn.commit();
			close(); //关闭资源
		} catch (SQLException e) {
			e.printStackTrace();
		}
	}