声明:本文转载自微信公众号“开涛的博客”,转载务必声明。mysql
做者:张子良,京东高级开发工程师,在京东负责抢购后端服务系统架构和开发工做。web
服务介绍redis
限时抢购又称闪购,英文Flash sale,起源于法国网站Vente Privée。闪购模式便是以互联网为媒介的B2C电子零售交易活动,以限时特卖的形式,按期定时推出国际知名品牌的商品,通常以原价1-5折的价格供专属会员限时抢购,每次特卖时间持续5-10天不等,先到先买,限时限量,售完即止。顾客在指定时间内(通常为20分钟)必须付款,不然商品会从新放到待销售商品的行列里。算法
模式特征:
品牌丰富 —— 推出国内外一二线名牌商品,供消费者购买选择;
时间短暂 —— 每一个品牌推出时间短暂,通常为5—10天,先到先买,限量售卖,售完即止;
折扣超低 —— 以商品原价1—5折的价格销售,折扣力度大。
摘自【百度百科】,经过这段简介相信对限时抢购有了必定的了解,咱们内部称之为抢购系统。sql
对于抢购系统来讲,首先要有可抢购的活动,并且这些活动具备促销性质,好比直降500元。其次要求可抢购的活动类目丰富,用户才有充分的选择性。618(6.1-6.20)期间增量促销活动量很是多,可能某个活动力度特别大,大多用户都在抢,必然对系统是一个考验。这样抢购系统具备秒杀特性,并发访问量高,同时用户也可选购多个限时抢商品,与普通商品一块儿进购物车结算。这种大型活动的负载多是平时的几十倍,因此经过增长硬件、优化瓶颈代码等手段是很难达到目标的,因此抢购系统得专门设计。数据库
服务主要功能后端
建立促销服务:采销建立促销后,促销管理系统审核经过后,会调用抢购系统建立促销;缓存
抢服务:为符合条件的订单操做剩余数,主要是扣减剩余数;微信
针对哪些SKU网络
主要渠道
移动APP、微信、手Q和主站
限购类型
限数量、限ip、限pin和限制ip与pin
系统设计要点
如何实现实时库存?
这里说的库存不是真正意义上的库存,实际上是该促销能够抢购的数量,真正的库存在基础库存服务。用户点击『提交订单』按钮后,在抢购系统中获取了资格后才去基础库存服务中扣减真正的库存;而抢购系统控制的就是资格/剩余数。传统方案利用数据库行锁,可是在促销高峰数据库压力过大致使服务不可用,目前采用redis集群(16分片)缓存促销信息,例如促销id、促销剩余数、抢次数等,抢的过程当中按照促销id散列到对应分片,实时扣减剩余数。当剩余数为0或促销删除,价格恢复原价。
如何设计抢购redis数据结构?
采销人员发布促销后,在抢购redis中生成一笔记录,给抢服务提供基本信息。每个促销对应一个促销id,促销信息是Hashes结构。
例如促销A,对应的类型为单品促销,咱们暂且认为类型值为1,对应redis中的key为 C_A_1,数据结构内容相似于以下:
o: 100 // 原始数量
b: 99 // 可抢购数量,假如抢购了一个剩下了99
c: 1 // 抢购次数记录,用来限流,后面会介绍到
如何保证不超卖?
由于扣减资格是一组操做,咱们利用EVAL操做redis剩余数实现原子化操做,伪代码以下:
local key = KEYS[1]
local tag = "b"
local num = tonumber(ARGV[1]);
local lastNum = redis.call('HINCRBY',key,tag,-num);
if业务性判断ortonumber(lastNum) == 0then
return lastNum
end
如上代码会返回剩余数,若是小于等于0了,则没有库存了。
如何提升吞吐量?
减小网络交互(一次抢数据经过 EVALSHA 一次性提交给redis集群);数据库操做异步化(使用JMQ异步记录日志)。
如何保证可用性?
采用JSF(京东内部SOA框架)对外开放服务(抢服务和发布促销服务),可降级为系统自身webservice服务;
抢购系统主要依赖于redis集群,redis采用一主三从集群方案,部署在两个机房,每一个集群16个分片,每两分片共用一台物理机,可经过配置中心切换主从;
若是Redis挂掉了,如何恢复呢?经过汇总MySQL中的抢购和取消流水日志,并恢复Redis的抢购数量。
系统架构
这里主要涉及抢服务架构剖析,由于它具备典型的高并发特性,下面是基本架构概图:
注:此处的库存是可抢购数量设置,或者叫作资格/剩余数,并不是真正的实际库存。
抢服务流程
Redis使用单个Lua解释器去运行全部脚本,而且Redis 也保证脚本会以原子性(atomic)的方式执行:当某个脚本正在运行的时候,不会有其余脚本或Redis命令被执行。这种特性很好的解决了抢服务流程中并发带来的问题。
REDIS+LUA抢购子流程:
此流程经过lua Script脚本实现,咱们暂时命名为q.lua(主要功能限流和扣减促销活动剩余数)。这样把抢购流程与Script脚本结合,一次性提交给Redis减小网络交互,使得性能大大提高。
q.lua伪代码:
--[[
--!@brief 促销Id下限流:能够防止某个促销过热致使服务不能够用
--]]
local function limited()
-- todo: 实现
end
--[[
--!@brief 限制逻辑(ip和pin):好比有的促销是限制ip,这里校验ip是否存在,若是为限ip类型抢购活动,存在抛出异常告知ip已经存在不能抢购
--]]
local function check_ip_pin()
-- todo: 实现
end
--[[
--!@brief 记录订单号:主要目的实现抢方法幂等性,调用方网络超时能够重复调用,存在订单号直接返回抢购成功,不至于超卖
--]]
local function record_order_id()
-- todo: 实现
end
--[[
--!@brief 扣减剩余数
--]]
local function scalebuy()
--
local lastNum = redis.call('HINCRBY',key,tag,-num);
--
end
-- 调用顺序不可调整
-- 1 限流
子流程具体以下:
一、解析请求参数,根据促销Id按照Jedis中MurmurHash算法获取分片,而后按照分片包装Pipeline批量发送请求参数argList;
二、获取系统初始化时SCRIPT LOAD加载q.lua返回的串shaValue;
三、执行EVALSHA,伪代码以下:
// 其余操做
Pipeline p;
// 初始化p
p.evalsha(shaValue,keyList, argList);
// 其余操做
四、处理返回结果,只要有一个分片失败,本次抢购就失败。
补充:详细Script操做能够参考Jedis中 ScriptingCommandsTest。
JMQ发送子流程:
执行REDIS+LUA抢购子流程成功仅仅表明着操做redis成功,发送jmq(京东mq基础服务)成功(后端异步将实时库存更新到MySQL)才算一笔抢购成功,不然算抢购失败。这么设计的缘由主要是保证抢购redis和mysql记录最终一致,发送失败须要回滚REDIS+LUA抢购子流程(恢复Redis的库存和抢购资格)。固然要考虑降级,jmq不可用时,直接切到jsf服务模拟jmq,也就是直接写MySQL库,前提是限流次数调小,不然数据库有压力过大的风险。这样虽然用户体验降低了,可是服务依然可用。开关都在配置中心操做,一分钟内生效。
资格回滚子流程:
发送JMQ失败必须回滚,不然就出现了超卖现象,具体流程同REDIS+LUA抢购子流程相似,是它的逆向流程,只不过运行脚本不一样罢了。
限流处理
方法级限流,限流阈值经过配置中心配置,一分钟生效,伪代码以下:
private static AtomicInteger atomic = new AtomicInteger(0);
public void test() {
try {
// 限流
int limitNum = XXX.getLimitNum();
int nowConcurrent = atomic.incrementAndGet();
if(nowConcurrent > limitNum) {
// 异常处理
}
// 正常业务逻辑
} catch(Exception e) {
// 异常处理
} finally {
atomic.decrementAndGet();
}
}
q.lua中促销级别的限流,主要利用C_A_1中c的抢次数和阈值比对。好比促销A,60秒内只能抢60000次,超过阈值60000该促销就会抢购失败。
到此抢购系统的核心逻辑就介绍完了,这里边还有一些细节问题须要你们在设计时思考,如限购(如每一个人限购2个)、真实库存不足取消、用户取消订单归还资格、Redis挂了恢复数据、停促销(时间过时停、库存不足停)等等。