[MySQL复制] SQL_ERROR 1032解决办法（non-gtid env）

时间 2019-11-12

标签 mysql 复制 sql error 解决办法 non gtid env 栏目 MySQL 繁體版

原文原文链接

1、原因：

　　在主主同步的测试环境，因为业务侧没有遵循同一时间只写一个点的原则，形成A库上删除了一条数据，B库上在同时更新这条数据。mysql

因为异步和网络延时，B的更新event先到达A端执行，形成A端找不到这条记录，故SQL_THREAD报错1032，主从同步中止。sql

2、错误说明：

　　MySQL主从同步的1032错误，通常是指要更改的数据不存在，SQL_THREAD提取的日志没法应用故报错，形成同步失败数据库

（Update、Delete、Insert一条已经delete的数据）。服务器

　　1032的错误自己对数据一致性没什么影响，影响最大的是形成了同步失败、同步中止。网络

　　若是主主（主从）有同步失败，要第一时间查看并着手解决。由于不一样步，会形成读取数据的不一致。应在第一时间恢复同步，异步

尽可能减小对业务的影响。而后再具体分析不一样步的缘由，手动或者自动修复数据，并作pt-table-checksum数据一致性检查。工具

　　目前业务通常是作主主同步，主主同步因为是异步更新，存在更新冲突的问题，且很容易引发SQL ERROR 1032错误。这个应该在业务侧解决，测试

保证同一时间只更新数据库的一个点，相似单点写入。咱们的解决办法是:写一个底层数据库调用库，可能涉及到更新冲突的操做，都调用这个库。spa

在配置文件里，配2个点的数据库A、B，保证一直都更新A库，若是A库不可用，就去更新B库。线程

　　另外，若是是对数据一致性要求较高的场景，好比涉及到钱，建议用PXC（强一致性、真正同步复制）。

3、解决办法：

　　MySQL5.6.30版本，binlog模式为ROW。

　　show slave status\G,能够看到以下报错：

Slave_SQL_Running: NO
Last_SQL_Errno: 1032
Last_SQL_Error: Worker 3 failed executing transaction '' at master log mysql-bin.000003, end_log_pos 440267874;
　　　　　　　　  Could not execute Delete_rows event on table db_test.tbuservcbgolog; Can't find record in 'tbuservcbgolog', Error_code: 1032;
 　　　　　　　　 handler error HA_ERR_KEY_NOT_FOUND; the event's master log mysql-bin.000003, end_log_pos 440267874

　　从上能够看出，是SQL_THREAD线程出错，错误号码1032。是在应用delete db_test.tbuservcbgolog 表中一行数据的事件时，因为这条数据

不存在而出错。此事件在主服务器Master binlog中的位置是 mysql-bin.000003, end_log_pos 440267874。（固然能够在从服务器Slave的Relay

log中查找，具体方法见最后）

方法1：跳过错误Event

先跳过这一条错误(event),让主从同步恢复正常。（或者N条event，一条一条跳过）

　　stop slave;

　　set global sql_slave_skip_counter=1;

　　start slave;

方法2：跳过全部1032错误

更改my.cnf文件，在Replication settings下添加：

　　slave-skip-errors　＝　1032

并重启数据库，而后start salve。

注意：由于要重启数据库，不推荐，除非错误事件太多。

方法3：还原被删除的数据

根据错误提示信息，用mysqlbinlog找到该条数据event SQL并逆向手动执行。如delete 改为insert。

本例中，此事件在主服务器Master binlog中的位置是 mysql-bin.000003, end_log_pos 440267874。

1）利用mysqlbinlog工具找出440267874的事件

/usr/local/mysql-5.6.30/bin/mysqlbinlog --base64-output=decode-rows -vv mysql-bin.000003 |grep -A 20 '440267874'

或者/usr/local/mysql-5.6.30/bin/mysqlbinlog --base64-output=decode-rows -vv mysql-bin.000003 --stop-position=440267874 | tail -20

或者usr/local/mysql-5.6.30/bin/mysqlbinlog --base64-output=decode-rows -vv mysql-bin.000003 > decode.log

（或者加上参数-d, --database=name 来进一步过滤）

#160923 20:01:27 server id 1223307  end_log_pos 440267874 CRC32 0x134b2cbc      Delete_rows: table id 319 flags: STMT_END_F
### DELETE FROM `db_99ducj`.`tbuservcbgolog`
### WHERE
###   @1=10561502 /* INT meta=0 nullable=0 is_null=0 */
###   @2=1683955 /* INT meta=0 nullable=0 is_null=0 */
###   @3=90003 /* INT meta=0 nullable=0 is_null=0 */
###   @4=0 /* INT meta=0 nullable=0 is_null=0 */
###   @5='2016-09-23 17:02:24' /* DATETIME(0) meta=0 nullable=1 is_null=0 */
###   @6=NULL /* DATETIME(0) meta=0 nullable=1 is_null=1 */
# at 440267874

以上为检索出来的结果，事务语句为：delete from db_99ducj.tbuservcbgolog where @1=10561502 and @2=1683955 ...

其中@1 @2 @3...分别对应表tbuservcbgolog的列名，填补上便可。

咱们能够逆向此SQL 将deleter 变成Insert,手动在从库上执行此Insert SQL,以后restart slave就行了。