延迟队列,顾名思义它是一种带有延迟功能的消息队列。 那么,是在什么场景下我才须要这样的队列呢?php
先看看一下业务场景:html
一般解决以上问题,最简单直接的办法就是定时去扫表。mysql
扫表存在的问题是:git
延时队列能对于上述需求能很好的解决github
调研了市场上一些开源的方案,如下:web
基本以上缘由打算本身写一个,日常使用php多,项目基本redis的zset结构做为存储,用php语言实现 ,实现原理参考了有赞团队:https://tech.youzan.com/queuing_delay/redis
整个延迟队列主要由4个部分sql
消息结构
每一个Job必须包含一下几个属性:docker
对于同一类的topic delaytime,ttr通常是固定,job能够在精简一下属性数据库
1.topic:Job类型。能够理解成具体的业务名称
2.id:Job的惟一标识。用来检索和删除指定的Job信息。
3.body:Job的内容,供消费者作具体的业务处理,以json格式存储。
delaytime,ttr在topicadmin后台配置
整体架构
采用master-work架构模式,主要包括6个模块:
消息写入:
timer查找到期消息:
timer查找到期消息:
consumer消费流程:
6、部署
环境依赖:PHP 5.4+ 安装sockets,redis,pcntl,pdo_mysql 拓展
ps: 熟悉docker的同窗能够直接用镜像: shareclz/php7.2.14 里面包含了所需拓展
step1:安装数据库用于存储一些topic以及告警信息
执行:
step2:在DqConfg.文件中配置数据库信息: DqConf::$db step3: 启动http服务mysql> source dq.sql
在DqConf.php文件中修改php了路径
命令:
php DqHttpServer.php --port 8088
访问:http://127.0.0.1:8088,出现配置界面
redis信息格式:host:port:auth 好比 127.0.0.1:6379:12345
stop4:配置告信息(好比redis宕机)
stop5:注册topic
重试标记说明:
1.接口返回为空默认重试
2.知足指定返回表达会重试,res表示返回的json数组,好比:
回调接口返回json串:{ "code": 200, "data":{ "status": 2, "msg": "返回失败"}},重试条件能够这样写
{res.code}!= 200
{res.code}!= 200&& {res. data.status}!= 2
{res.code}== 200&& {res. data.status}== 2|| {res. data.msg}== '返回失败'
step6:启动服务进程:
php DqInit.php --port 6789 &
执行 ps -ef | grep dq 看到以下信息说明启动成功
step7: 写入数据,参考demo.phpstep8:查看日志
默认日志目录在项目目录的logs目录下,在DqConf.php修改$logPath
7、性能测试ps -ef | grep dq-master| grep -v grep | head -n 1 | awk '{print $2}' | xargs kill -USR2
须要安装pthreads拓展:
测试原理:使用多线程模拟并发,在1s内能成功返回请求成功的个数
php DqBench concurrency requests
concurrency:并发数
requests: 每一个并发产生的请求数
测试环境:内存 8G ,8核cpu,2个redis和1个dq-server 部署在一个机器上,数据包64字节
qps:2400
8、值得一提的性能优化点:
1.若是调用通知接口在超时时间内,没有收到回复认为通知失败,系统会从新把数据放入队列,从新通知,系统默认最大通知10次(能够在Dqconf.php文件中修改$notify_exp_nums)通知间隔为2n+1,好比第一次1分钟,通知失败,第二次3分钟后,直到收到回复,超出最大通知次数后系统自动丢弃,同时发邮件通知
2.线上redis每隔1s持久化一次,存在丢失1s数据的状况,出现这种状况能够对比request_ymd.txt和notify_ymd.txt日志手动恢复过来
3.redis宕机通知:
ps:网络抖动在所不免,通知接口若是涉及到核心的服务,必定要保证幂等!!
10、线上状况
线上部署了两个实例每一个机房部一个,4个redis共16G内存做存储,服务稳定运行数月,各项指标均符合预期
主要接入业务:
1.因为团队使用的镜像缺乏libevent拓展,因此dq-server基于select模型,并发高的场景下性能存在瓶颈,后续能够改成基于libevent事件模型,提高并发性能
2.timer和consumer目前是采用多进程来作的,这个粒度感受有点粗,能够考虑使用多线程模式,而且支持动态建立线程数来提升consumer的性能,最大程度保证消费及时
3.dq-server与redis是同步调用,这也是性能的瓶颈点,计划基于swoole_redis来异步处理