幂等性问题剖析

所谓幂等,简单地说,就是对接口的屡次调用所产生的结果和调用一次是一致的。扩展一下,这里的接口,能够理解为对外发布的HTTP接口或者Thrift接口,也能够是接收消息的内部接口,甚至是一个内部方法或操做。html

数学上的定义:f(f(x)) = f(x)。x被函数f做用一次和做用无限次的结果是同样的。幂等性应用在软件系统中,我把它简单定义为:某个函数或者某个接口使用相同参数调用一次或者无限次,其形成的后果是同样的,在实际应用中通常针对于接口进行幂等性设计。举个栗子,在系统中,调用方A调用系统B的接口进行用户的扣费操做时,因为网络不稳定,A重试了N次该请求,那么无论B是否接收到多少次请求,都应该保证只会扣除该用户一次费用。前端

那么咱们为何须要接口具备幂等性呢?设想一下如下情形:nginx

  • 在App中下订单的时候,点击确认以后,没反应,就又点击了几回。在这种状况下,若是没法保证该接口的幂等性,那么将会出现重复下单问题。
  • 在接收消息的时候,消息推送重复。若是处理消息的接口没法保证幂等,那么重复消费消息产生的影响可能会很是大。

在分布式环境中,网络环境更加复杂,因前端操做抖动、网络故障、消息重复、响应速度慢等缘由,对接口的重复调用几率会比集中式环境下更大,尤为是重复消息在分布式环境中很难避免。Tyler Treat也在《You Cannot Have Exactly-Once Delivery》一文中提到:程序员

Within the context of a distributed system, you cannot have exactly-once message delivery.redis

分布式环境中,有些接口是自然保证幂等性的,如查询操做。有些对数据的修改是一个常量,而且无其余记录和操做,那也能够说是具备幂等性的。其余状况下,全部涉及对数据的修改、状态的变动就都有必要防止重复性操做的发生。经过间接的实现接口的幂等性来防止重复操做所带来的影响,成为了一种有效的解决方案。数据库

GTIS

GTIS就是这样的一个解决方案。它是一个轻量的重复操做关卡系统,它可以确保在分布式环境中操做的惟一性。咱们能够用它来间接保证每一个操做的幂等性。它具备以下特色:api

  • 高效:低延时,单个方法平均响应时间在2ms内,几乎不会对业务形成影响;
  • 可靠:提供降级策略,以应对外部存储引擎故障所形成的影响;提供应用鉴权,提供集群配置自定义,下降不一样业务之间的干扰;
  • 简单:接入简捷方便,学习成本低。只需简单的配置,在代码中进行两个方法的调用便可完成全部的接入工做;
  • 灵活:提供多种接口参数、使用策略,以知足不一样的业务需求。

实现原理

基本原理缓存

GTIS的实现思路是将每个不一样的业务操做赋予其惟一性。这个惟一性是经过对不一样操做所对应的惟一的内容特性生成一个惟一的全局ID来实现的。基本原则为:相同的操做生成相同的全局ID;不一样的操做生成不一样的全局ID。服务器

生成的全局ID须要存储在外部存储引擎中,数据库、Redis亦或是Tair等都可实现。考虑到Tair天生分布式和持久化的优点,目前的GTIS存储在Tair中。其相应的key和value以下:restful

  • key:将对于不一样的业务,采用APP_KEY+业务操做内容特性生成一个惟一标识trans_contents。而后对惟一标识进行加密生成全局ID做为Key。
  • value:current_timestamp + trans_contents,current_timestamp用于标识当前的操做线程。

判断是否重复,主要利用Tair的SETNX方法,若是原来没有值则set且返回成功,若是已经有值则返回失败。

内部流程

GTIS的内部实现流程为:

  1. 业务方在业务操做以前,生成一个可以惟一标识该操做的transContents,传入GTIS;
  2. GTIS根据传入的transContents,用MD5生成全局ID;
  3. GTIS将全局ID做为key,current_timestamp+transContents做为value放入Tair进行setNx,将结果返回给业务方;
  4. 业务方根据返回结果肯定可否开始进行业务操做;
  5. 若能,开始进行操做;若不能,则结束当前操做;
  6. 业务方将操做结果和请求结果传入GTIS,系统进行一次请求结果的检验;
  7. 若该次操做成功,GTIS根据key取出value值,跟传入的返回结果进行比对,若是二者相等,则将该全局ID的过时时间改成较长时间;
  8. GTIS返回最终结果。

实现难点

GTIS的实现难点在于如何保证其判断重复的可靠性。因为分布式环境的复杂度和业务操做的不肯定性,在上一章节分布式锁的实现中考虑的网络断开或主机宕机等问题,一样须要在GTIS中设法解决。这里列出几个典型的场景:

  • 若是操做执行失败,理想的状况应该是另外一个相同的操做能够当即进行。所以,须要对业务方的操做结果进行判断,若是操做失败,那么就须要当即删除该全局ID;

  • 若是操做超时或主机宕机,当前的操做没法告知GTIS操做是否成功。那么咱们必须引入超时机制,一旦长时间获取不到业务方的操做反馈,那么也须要该全局ID失效;

  • 结合上两个场景,既然全局ID会失效而且可能会被删除,那就须要保证删除的不是另外一个相同操做的全局ID。这就须要将特殊的标识记录下来,并由此来判断。这里所用的标识为当前时间戳。

能够看到,解决这些问题的思路,也和上一章节中的实现有不少相似的地方。除此之外,还有更多的场景须要考虑和解决,全部分支流程以下:

图片描述

使用说明

使用时,业务方只须要在操做的先后调用GTIS的前置方法和后置方法,以下图所示。若是前置方法返回可进行操做,则说明此时无重复操做,能够进行。不然则直接结束操做。

图片描述

使用方须要考虑的主要是下面两个参数:

  • 空间全局性:业务方输入的可以标志操做惟一性的内容特性,能够是惟一性的String类型的ID,也能够是map、POJO等形式。如订单ID等
  • 时间全局性:肯定在多长时间内不容许重复,1小时内仍是一个月内亦或是永久。

此外,GTIS还提供了不一样的故障处理策略和重试机制,以此来下降外部存储引擎异常对系统形成的影响。

目前,GTIS已经持续迭代了7个版本,距离第一个版本有近1年之久,前后在美团点评多个项目中稳定运行。

结语

在分布式环境中,操做互斥性问题和幂等性问题很是广泛。通过分析,咱们找出了解决这两个问题的基本思路和实现原理,给出了具体的解决方案。

针对操做互斥性问题,常见的作法即是经过分布式锁来处理对共享资源的抢占。分布式锁的实现,很大程度借鉴了多线程和多进程环境中的互斥锁的实现原理。只要知足一些存储方面的基本条件,而且可以解决如网络断开等异常状况,那么就能够实现一个分布式锁。目前已经有基于Zookeeper和Redis等存储引擎的比较典型的分布式锁实现。可是因为单存储引擎的局限,咱们开发了基于ZooKeeper和Tair的多引擎分布式锁Cerberus,它具备使用灵活方便等诸多优势,还提供了完善的一键降级方案。

针对操做幂等性问题,咱们能够经过防止重复操做来间接的实现接口的幂等性。GTIS提供了一套可靠的解决方法:依赖于存储引擎,经过对不一样操做所对应的惟一的内容特性生成一个惟一的全局ID来防止操做重复。

目前Cerberus分布式锁、GTIS都已应用在生产环境并平稳运行。二者提供的解决方案已经可以解决大多数分布式环境中的操做互斥性和幂等性的问题。值得一提的是,分布式锁和GTIS都不是万能的,它们对外部存储系统的强依赖使得在环境不那么稳定的状况下,对可靠性会形成必定的影响。在并发量太高的状况下,若是不能很好的控制锁的粒度,那么使用分布式锁也是不太合适的。总的来讲,分布式环境下的业务场景纷繁复杂,要解决互斥性和幂等性问题还须要结合当前系统架构、业务需求和将来演进综合考虑。Cerberus分布式锁和GTIS也会持续不断地迭代更新,提供更多的引擎选择、更高效可靠的实现方式、更简捷的接入流程,以期知足更复杂的使用场景和业务需求。

 

 

 

 WEB资源或API方法的幂等性是指一次和屡次请求某一个资源应该具备一样的反作用。幂等性是系统的接口对外一种承诺(而不是实现), 承诺只要调用接口成功, 外部屡次调用对系统的影响是一致的。幂等性是分布式系统设计中的一个重要概念,对超时处理、系统恢复等具备重要意义。声明为幂等的接口会认为外部调用失败是常态, 而且失败以后必然会有重试。例如,在因网络中断等缘由致使请求方未能收到请求返回值的状况下,若是该资源具有幂等性,请求方只须要从新请求便可,而无需担忧重复调用会产生错误。实际上,咱们经常使用的HTTP协议的方法是具备幂等性语义要求的,好比:get方法用于获取资源,不该有反作用,所以是幂等的;post方法用于建立资源,每次请求都会产生新的资源,所以不具有幂等性;put方法用于更新资源,是幂等的;delete方法用于删除资源,也是幂等的。

常见用来保证幂等的手段:

1.MVCC方案
多版本并发控制,该策略主要使用update with condition(更新带条件来防止)来保证屡次外部请求调用对系统的影响是一致的。在系统设计的过程当中,合理的使用乐观锁,经过version或者updateTime(timestamp)等其余条件,来作乐观锁的判断条件,这样保证更新操做即便在并发的状况下,也不会有太大的问题。例如

select * from tablename where condition=#condition# //取出要跟新的对象,带有版本versoin
update tableName set name=#name#,version=version+1 where version=#version#

在更新的过程当中利用version来防止,其余操做对对象的并发更新,致使更新丢失。为了不失败,一般须要必定的重试机制。

2.去重表
在插入数据的时候,插入去重表,利用数据库的惟一索引特性,保证惟一的逻辑。

3.悲观锁

select for update,整个执行过程当中锁定该订单对应的记录。注意:这种在DB读大于写的状况下尽可能少用。

4. select + insert
并发不高的后台系统,或者一些任务JOB,为了支持幂等,支持重复执行,简单的处理方法是,先查询下一些关键数据,判断是否已经执行过,在进行业务处理,就能够了。注意:核心高并发流程不要用这种方法。

5.状态机幂等
在设计单据相关的业务,或者是任务相关的业务,确定会涉及到状态机,就是业务单据上面有个状态,状态在不一样的状况下会发生变动,通常状况下存在有限状态机,这时候,若是状态机已经处于下一个状态,这时候来了一个上一个状态的变动,理论上是不可以变动的,这样的话,保证了有限状态机的幂等。

6. token机制,防止页面重复提交

业务要求:页面的数据只能被点击提交一次
发生缘由:因为重复点击或者网络重发,或者nginx重发等状况会致使数据被重复提交
解决办法:

  • 集群环境:采用token加redis(redis单线程的,处理须要排队)
  • 单JVM环境:采用token加redis或token加jvm内存

处理流程:

  • 数据提交前要向服务的申请token,token放到redis或jvm内存,token有效时间
  • 提交后后台校验token,同时删除token,生成新的token返回

  token特色:要申请,一次有效性,能够限流 

7. 对外提供接口的api如何保证幂等 

如银联提供的付款接口:须要接入商户提交付款请求时附带:source来源,seq序列号。source+seq在数据库里面作惟一索引,防止屡次付款,(并发时,只能处理一个请求)

总结: 幂等性应该是合格程序员的一个基因,在设计系统时,是首要考虑的问题,尤为是在像支付宝,银行,互联网金融公司等涉及的都是钱的系统,既要高效,数据也要准确,因此不能出现多扣款,多打款等问题,这样会很难处理,用户体验也很差 。

这里须要关注几个重点:

  1. 幂等不只仅只是一次(或屡次)请求对资源没有反作用(好比查询数据库操做,没有增删改,所以没有对数据库有任何影响)。

  2. 幂等还包括第一次请求的时候对资源产生了反作用,可是之后的屡次请求都不会再对资源产生反作用。

  3. 幂等关注的是之后的屡次请求是否对资源产生的反作用,而不关注结果。

  4. 网络超时等问题,不是幂等的讨论范围。

幂等性是系统服务对外一种承诺(而不是实现),承诺只要调用接口成功,外部屡次调用对系统的影响是一致的。声明为幂等的服务会认为外部调用失败是常态,而且失败以后必然会有重试。

什么状况下须要幂等

业务开发中,常常会遇到重复提交的状况,不管是因为网络问题没法收到请求结果而从新发起请求,或是前端的操做抖动而形成重复提交状况。 在交易系统,支付系统这种重复提交形成的问题有尤为明显,好比:

  1. 用户在APP上连续点击了屡次提交订单,后台应该只产生一个订单;

  2. 向支付宝发起支付请求,因为网络问题或系统BUG重发,支付宝应该只扣一次钱。 很显然,声明幂等的服务认为,外部调用者会存在屡次调用的状况,为了防止外部屡次调用对系统数据状态的发生屡次改变,将服务设计成幂等。

幂等VS防重

上面例子中小明遇到的问题,只是重复提交的状况,和服务幂等的初衷是不一样的。重复提交是在第一次请求已经成功的状况下,人为的进行屡次操做,致使不知足幂等要求的服务屡次改变状态。而幂等更多使用的状况是第一次请求不知道结果(好比超时)或者失败的异常状况下,发起屡次请求,目的是屡次确认第一次请求成功,却不会因屡次请求而出现屡次的状态变化。

什么状况下须要保证幂等性

以SQL为例,有下面三种场景,只有第三种场景须要开发人员使用其余策略保证幂等性:

  1. SELECT col1 FROM tab1 WHER col2=2,不管执行多少次都不会改变状态,是自然的幂等。

  2. UPDATE tab1 SET col1=1 WHERE col2=2,不管执行成功多少次状态都是一致的,所以也是幂等操做。

  3. UPDATE tab1 SET col1=col1+1 WHERE col2=2,每次执行的结果都会发生变化,这种不是幂等的。

为何要设计幂等性的服务

幂等可使得客户端逻辑处理变得简单,可是却以服务逻辑变得复杂为代价。知足幂等服务的须要在逻辑中至少包含两点:

  1. 首先去查询上一次的执行状态,若是没有则认为是第一次请求

  2. 在服务改变状态的业务逻辑前,保证防重复提交的逻辑

幂等的不足

幂等是为了简化客户端逻辑处理,却增长了服务提供者的逻辑和成本,是否有必要,须要根据具体场景具体分析,所以除了业务上的特殊要求外,尽可能不提供幂等的接口。

  1. 增长了额外控制幂等的业务逻辑,复杂化了业务功能;

  2. 把并行执行的功能改成串行执行,下降了执行效率。

保证幂等策略

幂等须要经过惟一的业务单号来保证。也就是说相同的业务单号,认为是同一笔业务。使用这个惟一的业务单号来确保,后面屡次的相同的业务单号的处理逻辑和执行效果是一致的。 下面以支付为例,在不考虑并发的状况下,实现幂等很简单:①先查询一下订单是否已经支付过,②若是已经支付过,则返回支付成功;若是没有支付,进行支付流程,修改订单状态为‘已支付’。

防重复提交策略

上述的保证幂等方案是分红两步的,第②步依赖第①步的查询结果,没法保证原子性的。在高并发下就会出现下面的状况:第二次请求在第一次请求第②步订单状态尚未修改成‘已支付状态’的状况下到来。既然得出了这个结论,余下的问题也就变得简单:把查询和变动状态操做加锁,将并行操做改成串行操做。

乐观锁

若是只是更新已有的数据,没有必要对业务进行加锁,设计表结构时使用乐观锁,通常经过version来作乐观锁,这样既能保证执行效率,又能保证幂等。例如: UPDATE tab1 SET col1=1,version=version+1 WHERE version=#version# 不过,乐观锁存在失效的状况,就是常说的ABA问题,不过若是version版本一直是自增的就不会出现ABA的状况。(从网上找了一张图片很能说明乐观锁,引用过来,出自Mybatis对乐观锁的支持) 

防重表

使用订单号orderNo作为去重表的惟一索引,每次请求都根据订单号向去重表中插入一条数据。第一次请求查询订单支付状态,固然订单没有支付,进行支付操做,不管成功与否,执行完后更新订单状态为成功或失败,删除去重表中的数据。后续的订单由于表中惟一索引而插入失败,则返回操做失败,直到第一次的请求完成(成功或失败)。能够看出防重表做用是加锁的功能。

分布式锁

这里使用的防重表可使用分布式锁代替,好比Redis。订单发起支付请求,支付系统会去Redis缓存中查询是否存在该订单号的Key,若是不存在,则向Redis增长Key为订单号。查询订单支付已经支付,若是没有则进行支付,支付完成后删除该订单号的Key。经过Redis作到了分布式锁,只有此次订单订单支付请求完成,下次请求才能进来。相比去重表,将放并发作到了缓存中,较为高效。思路相同,同一时间只能完成一次支付请求。 

token令牌

这种方式分红两个阶段:申请token阶段和支付阶段。 第一阶段,在进入到提交订单页面以前,须要订单系统根据用户信息向支付系统发起一次申请token的请求,支付系统将token保存到Redis缓存中,为第二阶段支付使用。 第二阶段,订单系统拿着申请到的token发起支付请求,支付系统会检查Redis中是否存在该token,若是存在,表示第一次发起支付请求,删除缓存中token后开始支付逻辑处理;若是缓存中不存在,表示非法请求。 实际上这里的token是一个信物,支付系统根据token确认,你是你妈的孩子。不足是须要系统间交互两次,流程较上述方法复杂。 

支付缓冲区

把订单的支付请求都快速地接下来,一个快速接单的缓冲管道。后续使用异步任务处理管道中的数据,过滤掉重复的待支付订单。优势是同步转异步,高吞吐。不足是不能及时地返回支付结果,须要后续监听支付结果的异步返回。

 

 

 

现现在咱们的系统大多拆分为分布式SOA,或者微服务,一套系统中包含了多个子系统服务,而一个子系统服务每每会去调用另外一个服务,而服务调用服务无非就是使用RPC通讯或者restful,既然是通讯,那么就有可能再服务器处理完毕后返回结果的时候挂掉,这个时候用户端发现好久没有反应,那么就会屡次点击按钮,这样请求有屡次,那么处理数据的结果是否要统一呢?那是确定的!尤为再支付场景。

 

幂等性:就是用户对于同一操做发起的一次请求或者屡次请求的结果是一致的,不会由于屡次点击而产生了反作用。举个最简单的例子,那就是支付,用户购买商品使用约支付,支付扣款成功,可是返回结果的时候网络异常,此时钱已经扣了,用户再次点击按钮,此时会进行第二次扣款,返回结果成功,用户查询余额返发现多扣钱了,流水记录也变成了两条...

 

在之前的单应用系统中,咱们只须要把数据操做放入事务中便可,发生错误当即回滚,可是再响应客户端的时候也有可能出现网络中断或者异常等等。

 

在增删改查4个操做中,尤其注意就是增长或者修改,

查询对于结果是不会有改变的,

删除只会进行一次,用户屡次点击产生的结果同样

修改在大多场景下结果同样

增长在重复提交的场景下会出现

 

那么如何设计接口才能作到幂等呢?

方法1、单次支付请求,也就是直接支付了,不须要额外的数据库操做了,这个时候发起异步请求建立一个惟一的ticketId,就是门票,这张门票只能使用一次就做废,具体步骤以下:

  1. 异步请求获取门票

  2. 调用支付,传入门票

  3. 根据门票ID查询这次操做是否存在,若是存在则表示该操做已经执行过,直接返回结果;若是不存在,支付扣款,保存结果

  4. 返回结果到客户端

若是步骤4通讯失败,用户再次发起请求,那么最终结果仍是同样的

 

方法2、分布式环境下各个服务相互调用

这边就要举例咱们的系统了,咱们支付的时候先要扣款,而后更新订单,这个地方就涉及到了订单服务以及支付服务了。

用户调用支付,扣款成功后,更新对应订单状态,而后再保存流水。

而在这个地方就不必使用门票ticketId了,由于会比较闲的麻烦

(支付状态:未支付,已支付)

步骤:

一、查询订单支付状态

二、若是已经支付,直接返回结果

三、若是未支付,则支付扣款而且保存流水

四、返回支付结果

若是步骤4通讯失败,用户再次发起请求,那么最终结果仍是同样的

对于作过支付的朋友,幂等,也能够称之为冲正,保证客户端与服务端的交易一致性,避免屡次扣款。

 

最后来看一下咱们的订单流程,虽然不是很复杂,可是最后在支付环境是必定要实现幂等性的

相关文章
相关标签/搜索