分布式锁的那点事

时间 2019-11-11

标签分布式那点栏目系统架构繁體版

原文原文链接

在多线程并发的状况下，要保证一个代码块在同一时间只能由一个线程访问，能够用锁来保证，好比java的synchronized语法以及ReentrantLock类等等。这样子能够保证JVM进程内的多个线程同步执行。java

若是在分布式的集群环境中，如何保证不一样节点的线程同步执行呢？redis

对于单进程的并发场景，可使用语言和类库提供的锁。对于分布式场景，可使用分布式锁。算法

分布式锁的实现有哪些？多线程

1.Memcached分布式锁并发

利用Memcached的add命令。此命令是原子性操做，只有在key不存在的状况下，才能add成功，也就意味着线程获得了锁。分布式

2.Redis分布式锁lua

和Memcached的方式相似，利用Redis的setnx命令。此命令一样是原子性操做，只有在key不存在的状况下，才能set成功。（setnx命令并不完善，后续会介绍替代方案）spa

3.Zookeeper分布式锁线程

利用Zookeeper的顺序临时节点，来实现分布式锁和等待队列。Zookeeper设计的初衷，就是为了实现分布式锁服务的。设计

4.Chubby

Google公司实现的粗粒度分布式锁服务，底层利用了Paxos一致性算法。

下面重点说说如何用redis实现分布式锁。

如何用Redis实现分布式锁？

Redis分布式锁的基本流程并不难理解，但要想写得尽善尽美，也并非那么容易。在这里，须要先了解分布式锁实现的三个核心要素：

1.加锁

最简单的方法是使用setnx命令。key是锁的惟一标识，按业务来决定命名。好比想要给一种商品的秒杀活动加锁，能够给key命名为 “lock_sale_商品ID” 。而value设置成什么呢？姑且设置成1。加锁的伪代码以下：

setnx（key，1）

当一个线程执行setnx返回1，说明key本来不存在，该线程成功获得了锁；当一个线程执行setnx返回0，说明key已经存在，该线程抢锁失败。

2.解锁

有加锁就得有解锁。当获得锁的线程执行完任务，须要释放锁，以便其余线程能够进入。释放锁的最简单方式是执行del指令，伪代码以下：

del（key）

释放锁以后，其余线程就能够继续执行setnx命令来得到锁。

3.锁超时

锁超时是什么意思呢？若是一个获得锁的线程在执行任务的过程当中挂掉，来不及显式地释放锁，这块资源将会永远被锁住，别的线程再也别想进来。因此，setnx的key必须设置一个超时时间，以保证即便没有被显式释放，这把锁也要在必定时间后自动释放。setnx不支持超时参数，因此须要额外的指令，伪代码以下：

expire（key， 30）

综合起来，分布式锁实现的初版伪代码以下：

if（setnx（key，1） == 1）{

expire（key，30）

try {

do something ......

} finally {

del（key）

}

上面的伪代码中，存在着三个致命问题：

1. setnx和expire的非原子性

设想一个极端场景，当某线程执行setnx，成功获得了锁：

setnx刚执行成功，还将来得及执行expire指令，节点1就挂掉了。

这样一来，这把锁还没来得及设置过时时间，就不会过时，别的线程再也没法得到锁了。

怎么解决呢？setnx指令自己是不支持传入超时时间的，幸亏Redis 2.6.12以上版本为set指令增长了可选参数，伪代码以下：

set（key，1，30，NX）

这样就能够取代setnx指令。

2. del 致使误删

又是一个极端场景，假如某线程成功获得了锁，而且设置的超时时间是30秒。

若是某些缘由致使线程A执行的很慢很慢，过了30秒都没执行完，这时候锁过时自动释放，线程B获得了锁。

随后，线程A执行完了任务，线程A接着执行del指令来释放锁。但这时候线程B还没执行完，线程A实际上删除的是线程B加的锁。

怎么避免这种状况呢？能够在del释放锁以前作一个判断，验证当前的锁是否是本身加的锁。

至于具体的实现，能够在加锁的时候把当前的线程ID当作value，并在删除以前验证key对应的value是否是本身线程的ID。

加锁：

String threadId = Thread.currentThread().getId()

set（key，threadId ，30，NX）

解锁：

if（threadId .equals(redisClient.get(key))）{

del(key)

}

可是，这样作又隐含了一个新的问题，判断和释放锁是两个独立操做，不是原子性。

这一块用Lua脚原本实现：

String luaScript = "if redis.call('get', KEYS[1]) == ARGV[1] then returnredis.call('del', KEYS[1]) else return 0 end";

redisClient.eval(luaScript , Collections.singletonList(key), Collections.singletonList(threadId));

这样一来，验证和删除过程就是原子操做了。

3. 出现并发的可能性

仍是刚才第二点所描述的场景，虽然避免了线程A误删掉key的状况，可是同一时间有A，B两个线程在访问代码块，仍然是不完美的。

怎么办呢？可让得到锁的线程开启一个守护线程，用来给快要过时的锁“续航”。

当过去了29秒，线程A还没执行完，这时候守护线程会执行expire指令，为这把锁“续命”20秒。守护线程从第29秒开始执行，每20秒执行一次。

当线程A执行完任务，会显式关掉守护线程。

另外一种状况，若是节点1 突然断电，因为线程A和守护线程在同一个进程，守护线程也会停下。这把锁到了超时的时候，没人给它续命，也就自动释放了。

相比较而言，Zookeeper的分布式锁实现起来要优雅的多，欲知详情，下期再续。