仅4步,就可经过SQL进行分布式死锁的检测与消除

摘要:本文主要介绍在 GaussDB(DWS) 中,如何经过 SQL 语句,对分布式死锁进行检测和恢复。

分布式数仓应用场景中,咱们常常遇到数据库系统 hang 住的问题,所谓 hang 是指虽然数据库系统还在运行,但部分或所有业务没法正常执行。hang 问题的缘由有不少,其中以分布式死锁最为常见,本次主要分享在碰到死锁时,如何快速地解决死锁问题。node

GaussDB(DWS) 做为分布式数仓,经过锁机制来实行并发控制,所以也存在产生分布式死锁的可能。虽然分布式死锁没法避免,但幸运的是其提供了多种系统视图,可以保证在分布式死锁发生以后,快速地对死锁进行定位。sql

本文主要介绍了在 GaussDB(DWS) 中,如何经过 SQL 语句,对分布式死锁进行检测和恢复。本文介绍的方法大体分为 4 步:数据库

1. 收集各节点的锁信息。并发

2. 构建等待关系。app

3. 检测循环等待。分布式

4. 停止事务以消除死锁。post

本文介绍的方法使用简单,门槛低,能够确保在分布式死锁发生以后,快速解决问题,恢复业务。fetch

经过 SQL 语句进行分布式死锁的检测与消除

分布式死锁和单节点死锁的比较

单节点死锁

单节点死锁是指,死锁中的全部锁等待信息来自同一个节点,例如:ui

-- 事务 transaction1
-- 所在节点:CN1

BEGIN;

TRUNCATE t1;
EXECUTE DIRECT ON(DN1) 'SELECT * FROM t2';

COMMIT;


-- 事务 transaction2
-- 所在节点:CN1

BEGIN;

TRUNCATE t2;
EXECUTE DIRECT ON(DN2) 'SELECT * FROM t1';

COMMIT;

假设上述两个事务的执行顺序以下:spa

1. [transaction1] TRUNCATE t1

2. [transaction2] TRUNCATE t2

3. [transaction1] EXECUTE DIRECT ON(DN1) 'SELECT * FROM t2'

4. [transaction2] EXECUTE DIRECT ON(DN2) 'SELECT * FROM t1'

该执行顺序会致使死锁的产生。因为事务 transaction1 和 transaction2 都在 CN1 上执行,死锁中的全部锁等待信息都在 CN1 上,所以该死锁为单节点死锁。

GaussDB(DWS) 支持自动处理单节点死锁。当某个节点上的多个事务陷入循环等待时,数据库系统会自动将其中一个事务停止,从而消除死锁。

分布式死锁

分布式死锁是指,死锁中的锁等待信息来自不一样节点。例如:

-- 事务 transaction1
-- 所在节点:CN1

BEGIN;

TRUNCATE t1;
EXECUTE DIRECT ON(DN1) 'SELECT * FROM t2';

COMMIT;


-- 事务 transaction2
-- 所在节点:CN2

BEGIN;

TRUNCATE t2;
EXECUTE DIRECT ON(DN2) 'SELECT * FROM t1';

COMMIT;

本例与上一节中的例子相比,只有事务 transaction2 的所在节点从 CN1 改成了 CN2。

假设两个事务的执行顺序和上一节中的执行顺序一致,仍是会产生死锁,死锁中的锁等待信息以下:

这就是一个典型的分布式死锁,单独看 CN1 或 CN2 上的锁等待信息,都看不出来有死锁,但将多个节点的锁等待信息放到一块儿看,就能找到有循环等待的现象。

发生分布式死锁时,陷入死锁的事务所有都没法继续执行下去,只有其中一个事务锁等待超时,剩余事务才能继续执行。默认状况下,锁等待超时时间是 20 分钟。

分布式死锁的检测与消除

当咱们观察到数据库系统出现 hang 问题时,咱们须要经过 SQL 语句检测分布式死锁,若是发现确实存在分布式死锁,还须要对死锁进行消除。接下来以以前的分布式死锁为例,介绍分布式死锁的检测和消除的方法。

收集各节点的锁信息

为了检测分布式死锁,首先须要得到各节点的锁信息。GaussDB(DWS) 中能够经过 PG_LOCKS 视图查询当前节点的锁信息,所以能够经过 EXECUTE DIRECT 语句在全部节点查询 PG_LOCKS 视图,并收集到当前节点中。

注意此处有一个细节,PG_LOCKS 视图中,不少信息是以 OID 类型给出的,例如一个锁加在一个表上,PG_LOCKS 视图会给出表的 OID。因为同一个表在各节点中的 OID 不必定相同,所以不能经过 OID 来标识一个表。在收集锁信息时,须要先将表的 OID 转换成 SCHEMA 名加表名。其它 OID 信息例如分区 OID 等也同理,须要转化为对应的名字。

执行附件中的示例代码 pgxc_locks.sql,就能够收集到各节点的锁信息:

locktype    |   nodename   | datname  | usename | nspname | relname | partname | page | tuple | virtualxid | transactionid | virtualtransaction |        mode         | granted | client_addr | application_name |       pid       |         xact_start         |        query_start         |        state        |     query_id      |                        query
---------------+--------------+----------+---------+---------+---------+----------+------+-------+------------+---------------+--------------------+---------------------+---------+-------------+------------------+-----------------+----------------------------+----------------------------+---------------------+-------------------+-----------------------------------------------------
 virtualxid    | cn_5002      | postgres | tyx_1   |         |         |          |      |       | 12/94      |               | 12/94              | ExclusiveLock       | t       |             | gsql             | 140110481323776 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:19:37.715447 | active              |                 0 | EXECUTE DIRECT ON(dn_6003_6004) 'SELECT * FROM t1';
 virtualxid    | cn_5002      | postgres | tyx_1   |         |         |          |      |       | 9/298      |               | 9/298              | ExclusiveLock       | t       | ::1/128     | cn_5001          | 140110672164608 | 2020-12-25 17:18:40.478704 | 2020-12-25 17:18:40.479682 | idle in transaction |                 0 | TRUNCATE t1;
 virtualxid    | cn_5002      | postgres | tyx_1   |         |         |          |      |       | 6/161      |               | 6/161              | ExclusiveLock       | t       |             | WLMArbiter       | 140110762325760 | 2020-12-25 17:20:18.613815 | 2020-12-25 16:53:35.027585 | active              |                 0 | WLM arbiter sync info by CCN and CNs
 virtualxid    | cn_5002      | postgres | tyx_1   |         |         |          |      |       | 5/162      |               | 5/162              | ExclusiveLock       | t       |             | WorkloadMonitor  | 140110779119360 | 2020-12-25 17:20:27.16458  | 2020-12-25 16:53:35.027217 | active              |                 0 | WLM monitor update and verify local info
 virtualxid    | cn_5002      | postgres | tyx_1   |         |         |          |      |       | 3/325      |               | 3/325              | ExclusiveLock       | t       |             | workload         | 140110846744320 | 2020-12-25 17:20:25.372654 | 2020-12-25 16:53:35.02741  | active              | 72339069014641297 | WLM fetch collect info from data nodes
 advisory      | cn_5002      | postgres | tyx_1   |         |         |          |      |       |            |               | 12/94              | ShareLock           | t       |             | gsql             | 140110481323776 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:19:37.715447 | active              |                 0 | EXECUTE DIRECT ON(dn_6003_6004) 'SELECT * FROM t1';
 relation      | cn_5002      | postgres | tyx_1   | public  | t1      |          |      |       |            |               | 9/298              | AccessExclusiveLock | t       | ::1/128     | cn_5001          | 140110672164608 | 2020-12-25 17:18:40.478704 | 2020-12-25 17:18:40.479682 | idle in transaction |                 0 | TRUNCATE t1;
 relation      | cn_5002      | postgres | tyx_1   | public  | t1      |          |      |       |            |               | 12/94              | AccessShareLock     | f       |             | gsql             | 140110481323776 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:19:37.715447 | active              |                 0 | EXECUTE DIRECT ON(dn_6003_6004) 'SELECT * FROM t1';
 transactionid | cn_5002      | postgres | tyx_1   |         |         |          |      |       |            | 10269         | 12/94              | ExclusiveLock       | t       |             | gsql             | 140110481323776 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:19:37.715447 | active              |                 0 | EXECUTE DIRECT ON(dn_6003_6004) 'SELECT * FROM t1';
 transactionid | cn_5002      | postgres | tyx_1   |         |         |          |      |       |            | 10266         | 9/298              | ExclusiveLock       | t       | ::1/128     | cn_5001          | 140110672164608 | 2020-12-25 17:18:40.478704 | 2020-12-25 17:18:40.479682 | idle in transaction |                 0 | TRUNCATE t1;
 relation      | cn_5002      | postgres | tyx_1   | public  | t2      |          |      |       |            |               | 12/94              | AccessExclusiveLock | t       |             | gsql             | 140110481323776 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:19:37.715447 | active              |                 0 | EXECUTE DIRECT ON(dn_6003_6004) 'SELECT * FROM t1';
 virtualxid    | dn_6001_6002 | postgres | tyx_1   |         |         |          |      |       | 17/433     |               | 17/433             | ExclusiveLock       | t       | ::1/128     | cn_5001          | 140552375822080 | 2020-12-25 17:18:40.478704 | 2020-12-25 17:18:50.513948 | idle in transaction |                 0 | TRUNCATE t1;
 virtualxid    | dn_6001_6002 | postgres | tyx_1   |         |         |          |      |       | 23/692     |               | 23/692             | ExclusiveLock       | t       | ::1/128     | cn_5002          | 140552359040768 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:18:56.830053 | idle in transaction |                 0 | TRUNCATE t2;
 virtualxid    | dn_6001_6002 | postgres | tyx_1   |         |         |          |      |       | 2/1607     |               | 2/1607             | ExclusiveLock       | t       |             | workload         | 140552945264384 |                            | 2020-12-25 16:53:35.041283 | active              |                 0 | WLM fetch collect info from data nodes
 transactionid | dn_6001_6002 | postgres | tyx_1   |         |         |          |      |       |            | 10266         | 17/433             | ExclusiveLock       | t       | ::1/128     | cn_5001          | 140552375822080 | 2020-12-25 17:18:40.478704 | 2020-12-25 17:18:50.513948 | idle in transaction |                 0 | TRUNCATE t1;
 relation      | dn_6001_6002 | postgres | tyx_1   |         |         |          |      |       |            |               | 23/692             | AccessExclusiveLock | t       | ::1/128     | cn_5002          | 140552359040768 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:18:56.830053 | idle in transaction |                 0 | TRUNCATE t2;
 relation      | dn_6001_6002 | postgres | tyx_1   |         |         |          |      |       |            |               | 17/433             | AccessExclusiveLock | t       | ::1/128     | cn_5001          | 140552375822080 | 2020-12-25 17:18:40.478704 | 2020-12-25 17:18:50.513948 | idle in transaction |                 0 | TRUNCATE t1;
 relation      | dn_6001_6002 | postgres | tyx_1   | public  | t2      |          |      |       |            |               | 23/692             | ShareLock           | t       | ::1/128     | cn_5002          | 140552359040768 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:18:56.830053 | idle in transaction |                 0 | TRUNCATE t2;
 relation      | dn_6001_6002 | postgres | tyx_1   | public  | t2      |          |      |       |            |               | 23/692             | AccessExclusiveLock | t       | ::1/128     | cn_5002          | 140552359040768 | 2020-12-25 17:18:54.238933 | 2020-12-25 17:18:56.830053 | idle in transaction |                 0 | TRUNCATE t2;
省略若干行
(55 rows)

构建等待关系

收集到各节点的锁信息以后,就能够开始构建等待关系了。

事务 A 等待事务 B,须要知足 3 个条件:

1. 两个事务加锁的资源相同(同一个表、同一个分区、同一个页面或同一个元组等)。特别注意,若是事务 A 对 DN1 的 t1 表的加锁,事务 B 对 DN2 的 t1 表的加锁,则咱们认为它们加锁的资源不一样,只有同一节点上的同一资源才被认为是相同的资源。

2. 事务 B 已经持有锁,而事务 A 还未持有锁。

3. 事务 A 和事务 B 申请的锁的级别互斥。

经过对上一步收集到的锁信息进行处理,就能够构建出事务的等待关系。

执行附件中的示例代码 pgxc_locks_wait.sql,就能够得到等待关系:

locktype | nodename | datname  | acquire_lock_pid |  hold_lock_pid  |                           acquire_lock_event                            |                    hold_lock_event
----------+----------+----------+------------------+-----------------+-------------------------------------------------------------------------+--------------------------------------------------------
 relation | cn_5001  | postgres |  140508814374656 | 140508792350464 | usename           : tyx_1                                              +| usename           : tyx_1                             +
          |          |          |                  |                 | nspname           : public                                             +| nspname           : public                            +
          |          |          |                  |                 | relname           : t2                                                 +| relname           : t2                                +
          |          |          |                  |                 | partname          :                                                    +| partname          :                                   +
          |          |          |                  |                 | page              :                                                    +| page              :                                   +
          |          |          |                  |                 | tuple             :                                                    +| tuple             :                                   +
          |          |          |                  |                 | virtualxid        :                                                    +| virtualxid        :                                   +
          |          |          |                  |                 | transactionid     :                                                    +| transactionid     :                                   +
          |          |          |                  |                 | virtualtransaction: 11/13                                              +| virtualtransaction: 12/1323                           +
          |          |          |                  |                 | mode              : AccessShareLock                                    +| mode              : AccessExclusiveLock               +
          |          |          |                  |                 | client_addr       :                                                    +| client_addr       : ::1/128                           +
          |          |          |                  |                 | application_name  : gsql                                               +| application_name  : cn_5002                           +
          |          |          |                  |                 | xact_start        : 2020-12-25 17:18:40.478704                         +| xact_start        : 2020-12-25 17:18:54.238933        +
          |          |          |                  |                 | query_start       : 2020-12-25 17:19:23.0923                           +| query_start       : 2020-12-25 17:18:54.239319        +
          |          |          |                  |                 | state             : active                                             +| state             : idle in transaction               +
          |          |          |                  |                 | query_id          : 0                                                  +| query_id          : 0                                 +
          |          |          |                  |                 | query             : EXECUTE DIRECT ON(dn_6001_6002) 'SELECT * FROM t2';+| query             : TRUNCATE t2;                      +
          |          |          |                  |                 | ------------------------------------------------------                  | ------------------------------------------------------
 relation | cn_5002  | postgres |  140110481323776 | 140110672164608 | usename           : tyx_1                                              +| usename           : tyx_1                             +
          |          |          |                  |                 | nspname           : public                                             +| nspname           : public                            +
          |          |          |                  |                 | relname           : t1                                                 +| relname           : t1                                +
          |          |          |                  |                 | partname          :                                                    +| partname          :                                   +
          |          |          |                  |                 | page              :                                                    +| page              :                                   +
          |          |          |                  |                 | tuple             :                                                    +| tuple             :                                   +
          |          |          |                  |                 | virtualxid        :                                                    +| virtualxid        :                                   +
          |          |          |                  |                 | transactionid     :                                                    +| transactionid     :                                   +
          |          |          |                  |                 | virtualtransaction: 12/94                                              +| virtualtransaction: 9/298                             +
          |          |          |                  |                 | mode              : AccessShareLock                                    +| mode              : AccessExclusiveLock               +
          |          |          |                  |                 | client_addr       :                                                    +| client_addr       : ::1/128                           +
          |          |          |                  |                 | application_name  : gsql                                               +| application_name  : cn_5001                           +
          |          |          |                  |                 | xact_start        : 2020-12-25 17:18:54.238933                         +| xact_start        : 2020-12-25 17:18:40.478704        +
          |          |          |                  |                 | query_start       : 2020-12-25 17:19:37.715447                         +| query_start       : 2020-12-25 17:18:40.479682        +
          |          |          |                  |                 | state             : active                                             +| state             : idle in transaction               +
          |          |          |                  |                 | query_id          : 0                                                  +| query_id          : 0                                 +
          |          |          |                  |                 | query             : EXECUTE DIRECT ON(dn_6003_6004) 'SELECT * FROM t1';+| query             : TRUNCATE t1;                      +
          |          |          |                  |                 | ------------------------------------------------------                  | ------------------------------------------------------
(2 rows)

等待关系判环

构建出事务的等待关系以后,就能够经过检查等待关系是否成环,来判断当前是否有分布式死锁。

通常状况下,等待关系不会太多,经过观察就能够判断出当前有无分布式死锁。经过观察上一节中构建的等待信息,能够很容易地判断出事务 transaction1 和 transaction2 发生了循环等待,即产生了死锁。

消除死锁

上一步最终可能会找到等待关系中的一个或多个环,对于每一个环,须要停止环中的一个事务,才能消除死锁。至于应该选择环中的哪一个事务进行停止,须要咱们从事务的重要性、已执行时间等多方面进行考虑,最终选择一个对业务影响最小的事务进行停止。

总结

经过 SQL 语句,咱们能够很方便地处理分布式死锁。当咱们在实际业务中遇到数据库系统 hang 住的问题时,能够借助本文提供的方法,检查 hang 问题是不是分布式死锁引发的,若是问题确实是由分布式死锁引发的,还能够经过停止某个陷入死锁的事务,来快速恢复业务。

附件下载:  lock.zip 2.29KB 

本文分享自华为云社区《如何经过SQL进行分布式死锁的检测与消除》,原文做者:tyxxjtu。

 

点击关注,第一时间了解华为云新鲜技术~

相关文章
相关标签/搜索