今天线上的主从复制发生1062的错误,使用sql_slave_skip_counter跳过以后,因为后面的事务须要对刚刚的数据进行update,后续形成了新的1032的错误。html
后来,无心中发现还有更好的方式跳过1032 和1062错误的方式,而且比skip 的方式更好。mysql
今天无心当中看到参数slave_exec_mode,从手册里的说明看出该参数和MySQL复制相关,是能够动态修改的变量,默认是STRICT模式(严格模式),可选值有IDEMPOTENT模式(幂等模式)。设置成IDEMPOTENT模式可让从库避免1032(从库上不存在的键)和1062(重复键,须要存在主键或则惟一键)的错误,该模式只有在ROW EVENT的binlog模式下生效,在STATEMENT EVENT的binlog模式下无效。IDEMPOTENT模式主要用于多主复制和NDB CLUSTER的状况下,其余状况不建议使用。从上面的介绍来看,这个参数的让从库跳过指定的错误,那问题来了:sql
1:和 sql_slave_skip_counter 比,有什么好处?数据库
2:和 slave-skip-errors = N比,有什么好处?安全
带着这2个问题,本文来进行相关的测试和说明。 post
MySQL版本:Percona MySQL 5.7测试
复制模式:ROW,没有开启GTIDurl
① 1062 错误:Could not execute ... event on table db.x; Duplicate entry 'xx' for key 'PRIMARY', Error_code: 1062;spa
主从上的测试表结构:设计
CREATE TABLE `x` ( `id` int(11) NOT NULL AUTO_INCREMENT, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=4 DEFAULT CHARSET=utf8
主从上的表记录:
M:
select * from x; +----+ | id | +----+ | 2 | | 3 | +----+ 2 rows in set (0.01 sec)
S:
select * from x; +----+ | id | +----+ | 1 | | 2 | | 3 | +----+ 3 rows in set (0.00 sec)
主从上的表记录原本就不一致了,主上缺乏了id=1的记录。
此时从上的slave_exec_mode为默认的STRICT模式:
show variables like 'slave_exec_mode'; +-----------------+--------+ | Variable_name | Value | +-----------------+--------+ | slave_exec_mode | STRICT | +-----------------+--------+ 1 row in set (0.00 sec)
M上的binlog模式为:
show variables like 'binlog_format'; +---------------+-------+ | Variable_name | Value | +---------------+-------+ | binlog_format | ROW | +---------------+-------+ 1 row in set (0.00 sec)
在M上执行:
insert into x values(1),(4),(5); Query OK, 3 rows affected (0.00 sec) Records: 3 Duplicates: 0 Warnings: 0
由于从上已经存在了id=1的记录,此时从的复制就报了1062的错误:
Last_SQL_Errno: 1062 Last_SQL_Error: Could not execute Write_rows event on table dba_test.x; Duplicate entry '1' for key 'PRIMARY', Error_code: 1062; handler error HA_ERR_FOUND_DUPP_KEY; the event's master log mysql-bin-3306.000006, end_log_pos 7124
出现这个错误时,你们的一致作法就是执行:sql_slave_skip_counter=N。关于该参数的说明能够看MySQL小误区:关于set global sql_slave_skip_counter=N 命令的一些点。文章的总结是:
一、set global sql_slave_skip_counter=N中的N是指跳过N个event 二、最好记的是N被设置为1时,效果跳过下一个事务。 三、跳过第N个event后,位置若恰好落在一个事务内部,则会跳过这整个事务 四、一个insert/update/delete不必定只对应一个event,由引擎和日志格式决定
sql_slave_skip_counter的单位是“event”,不少人认为该参数的单位是“事务”,实际上是错误的,由于一个事务里包含了多个event,跳过N个可能仍是在同一个事务当中。对于上面出现1062的错误,把N设置成1~4效果是同样的,都是跳过一个事务。由于执行的SQL生成了4个event:
show binlog events in 'mysql-bin-3306.000006' from 6950; +-----------------------+------+------------+-----------+-------------+---------------------------------+ | Log_name | Pos | Event_type | Server_id | End_log_pos | Info | +-----------------------+------+------------+-----------+-------------+---------------------------------+ | mysql-bin-3306.000006 | 6950 | Query | 169 | 7026 | BEGIN | | mysql-bin-3306.000006 | 7026 | Table_map | 169 | 7074 | table_id: 707 (dba_test.x) | | mysql-bin-3306.000006 | 7074 | Write_rows | 169 | 7124 | table_id: 707 flags: STMT_END_F | | mysql-bin-3306.000006 | 7124 | Xid | 169 | 7155 | COMMIT /* xid=74803 */ | +-----------------------+------+------------+-----------+-------------+---------------------------------+ 4 rows in set (0.00 sec)
因此处理该错误的方法有:
1:skip_slavesql_slave_skip_counter
stop slave; Query OK, 0 rows affected (0.00 sec) set global sql_slave_skip_counter=[1-4]; Query OK, 0 rows affected (0.00 sec) start slave; Query OK, 0 rows affected (0.00 sec)
2:在配置文件里指定slave-skip-errors=1062(须要重启)
这2种方法都能让复制恢复正常,可是会让主从数据不一致(谨慎使用),让从库丢失了id=4和5的记录。而且第2种方法还须要重启数据库,这时本文介绍的slave_exec_mode参数就派上用场了。在从库上设置该参数:
set global slave_exec_mode='IDEMPOTENT'; Query OK, 0 rows affected (0.00 sec) stop slave; Query OK, 0 rows affected (0.00 sec) start slave; Query OK, 0 rows affected (0.00 sec)
一样在主上执行:
insert into x values(1),(4),(5);
能够惊喜的发现主从数据是同步的,没有出现复制异常:
M: select * from x; +----+ | id | +----+ | 1 | | 2 | | 3 | | 4 | | 5 | +----+ 5 rows in set (0.00 sec) S: select * from x; +----+ | id | +----+ | 1 | | 2 | | 3 | | 4 | | 5 | +----+ 5 rows in set (0.01 sec)
上面的测试能够看到,参数设置成slave_exec_mode='IDEMPOTENT' 后,能够跳过出一个错误的event。
② 1032错误:Could not execute ... event on table db.x; Can't find record in 'x', Error_code: 1032;
这个错误的出现是由于ROW模式下的复制,对数据的一致性有了很严的要求,具体的能够看MySQL Binlog 【ROW】和【STATEMENT】选择
主从上的测试表结构:
CREATE TABLE `x` ( `id` int(11) NOT NULL AUTO_INCREMENT, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=4 DEFAULT CHARSET=utf8
主从上的表记录:
M:
select * from x; +----+ | id | +----+ | 1 | | 2 | | 3 | +----+ 3 rows in set (0.00 sec)
S:
select * from x; +----+ | id | +----+ | 1 | | 3 | +----+ 2 rows in set (0.00 sec)
主从上的表记录原本就不一致了,从上缺乏了id=2的记录。此时从上的slave_exec_mode为默认的STRICT模式:
show variables like 'slave_exec_mode'; +-----------------+--------+ | Variable_name | Value | +-----------------+--------+ | slave_exec_mode | STRICT | +-----------------+--------+ 1 row in set (0.00 sec)
M上的binlog模式为:
show variables like 'binlog_format'; +---------------+-------+ | Variable_name | Value | +---------------+-------+ | binlog_format | ROW | +---------------+-------+ 1 row in set (0.00 sec)
在M上执行:
BEGIN; INSERT INTO x SELECT 4; DELETE FROM x WHERE id = 2; INSERT INTO x SELECT 5; COMMIT;
由于从上不存在了id=2的记录,此时从的复制就报了1032的错误:
Last_SQL_Errno: 1032 Last_SQL_Error: Could not execute Delete_rows event on table dba_test.x; Can't find record in 'x', Error_code: 1032; handler error HA_ERR_KEY_NOT_FOUND; the event's master log mysql-bin-3306.000006, end_log_pos 12102
一样的,在上面测试中说明的2种方法可让复制正常,可是数据也同样会丢失。丢失了id=4和5的记录,继续在从库上设置该参数:
set global slave_exec_mode='IDEMPOTENT'; Query OK, 0 rows affected (0.00 sec) stop slave; Query OK, 0 rows affected (0.00 sec) start slave; Query OK, 0 rows affected (0.00 sec)
在M上执行一样的操做:
BEGIN; INSERT INTO x SELECT 4; DELETE FROM x WHERE id = 2; INSERT INTO x SELECT 5; COMMIT;
也能够惊喜的发现主从数据是同步的,没有出现复制异常。
注意:slave_exec_mode='IDEMPOTENT'不能对DDL操做幂等,而且也不能对字段长度不一样致使的错误进行幂等,如把例子中的从库表的id字段类型int改为bigint。而且只能在binlog_format为ROW的模式下使用,并且只能对1032和1062进行幂等模式。
对于上面的测试总结,针对slave_exec_mode参数,它能够跳过1062和1032的错误,而且不影响同一个事务中正常的数据执行。若是是多个SQL组成的事务,则能够跳过有问题的event。
看着这个参数很不错,但手册上说明不建议在普通的复制环境中开启。对于NDB之外的存储引擎,只有在肯定能够安全地忽略重复键错误和没有键的错误时,才应使用IDEMPOTENT模式。这参数是专门针对NBD Cluster进行设计的,NBD Cluster模式下,该参数只能设置成IDEMPOTENT模式。因此要根据本身的应用场景来决定,正常状况下,主从是一致的,有任何错误发生都要报错,不过在作特殊处理时,能够临时开启。
另外在GTID模式下的复制,sql_slave_skip_counter是不支持的,该模式下的复制能够自行测试。
原文连接:
http://www.cnblogs.com/zhoujinyi/p/8035413.html