可用性高达五个9！支付系统高可用架构设计实战

时间 2019-12-04

标签用性高达五个支付系统可用架构设计实战栏目系统架构繁體版

原文原文链接

对于互联网应用和企业大型应用而言，多数都尽量地要求作到7*24小时不间断运行，而要作到彻底的不间断运行能够说“难于上青天”。linux

为此，对应用的可用性程度通常衡量标准有三个9到五个9。redis

对于一个功能和数据量不断增长的应用，要保持比较高的可用性并不是易事。为了实现高可用，付钱拉从避免单点故障、保证应用自身的高可用、解决交易量增加等方面作了许多探索和实践。数据库

在不考虑外部依赖系统突发故障，如网络问题、三方支付和银行的大面积不可用等状况下，付钱拉的服务能力可达99.999%。缓存

本文重点讨论如何提升应用自身的可用性。安全

为了提升应用的可用性，首先要作的就是尽量避免应用出现故障，但要彻底作到不出故障是不可能的。互联网是个容易产生“蝴蝶效应”的地方，任何一个看似很小的、发生几率为0的事故均可能出现，而后被无限放大。服务器

你们都知道RabbitMQ自己是很是稳定可靠的，付钱拉最开始也一直在使用单点RabbitMQ，而且从未出现运行故障，因此你们在心理上都认为这个东西不太可能出问题。微信

直到某天，这台节点所在的物理主机硬件由于年久失修坏掉了，当时这台RabbitMQ就没法提供服务，致使系统服务瞬间不可用。网络

故障发生了也不可怕，最重要的是及时发现并解决故障。付钱拉对自身系统的要求是，秒级发现故障，快速诊断和解决故障，从而下降故障带来的负面影响。架构

首先简单回顾一下咱们曾经碰到的一些问题：并发

以史为鉴

新来的开发同事在处理新接入的三方通道时，因为经验不足忽视了设置超时时间的重要性。就是这样一个小小的细节，致使这个三方队列所在的交易所有堵塞，同时影响到其余通道的交易。
系统是分布式部署的，而且支持灰度发布，因此环境和部署模块很是多并且复杂。某次增长了一个新模块，因为存在多个环境，且每一个环境都是双节点，新模块上线后致使数据库的链接数不够用，从而影响其余模块功能。
一样是超时问题，一个三方的超时，致使耗尽了当前所配置的全部worker threads，以致于其余交易没有可处理的线程。
A三方同时提供鉴权，支付等接口，其中一个接口由于咱们的交易量突增，从而触发A三方在网络运营商那边的DDoS限制。一般机房的出口IP都是固定的，从而被网络运营商误认为是来自这个出口IP的交易是流量攻击，最终致使A三方鉴权和支付接口同时不可用。
再说一个数据库的问题，一样是由于咱们的交易量突增引起的。创建序列的同事给某个序列的上限是999，999，999，但数据库存的这个字段长度是32位，当交易量小的时候，系统产生的值和字段32位是匹配的，序列不会升位。但是随着交易量的增长，序列不知不觉的升位数了，结果致使32位就不够存放。

相似这样的问题对于互联网系统很是常见，而且具备隐蔽性，因此如何避免就显得很是重要了。

下面咱们从三个方面来看咱们所作的改变。

尽量避免故障

>>>>

设计可容错的系统

好比重路由，对于用户支付来讲，用户并不关心本身的钱具体是从哪一个通道支付出去的，用户只关心成功与否。付钱拉链接30多个通道，有可能A通道支付不成功，这个时候就须要动态重路由到B或者C通道，这样就能够经过系统重路由避免用户支付失败，实现支付容错。

还有针对OOM作容错，像Tomcat同样。系统内存总有发生用尽的状况，若是一开始就对应用自己预留一些内存，当系统发生OOM的时候，就能够catch住这个异常，从而避免此次OOM。

>>>>

某些环节快速失败“Fail fast原则”

Fail fast原则是当主流程的任何一步出现问题的时候，应该快速合理地结束整个流程，而不是等到出现负面影响才处理。

举个几个例子：

付钱拉启动的时候须要加载一些队列信息和配置信息到缓存，若是加载失败或者队列配置不正确，会形成请求处理过程的失败，对此最佳的处理方式是加载数据失败，JVM直接退出，避免后续启动不可用；
咱们的实时类交易处理响应时间最长是40s，若是超过40s前置系统就再也不等待，释放线程，告知商户正在处理中，后续有处理结果会以通知的方式或者业务线主动查询的方式获得结果；
咱们使用了redis作缓存数据库，用到的地方有实时报警埋点和验重等功能。若是链接redis超过50ms，那么这笔redis操做会自动放弃，在最坏的状况下这个操做带给支付的影响也就是50ms，控制在系统容许的范围内。

>>>>

设计具有自我保护能力的系统

系统通常都有第三方依赖，好比数据库、三方接口等。系统开发的时候，须要对第三方保持怀疑，避免第三方出现问题时候的连锁反应，致使宕机。

（1）拆分消息队列

咱们提供各类各样的支付接口给商户，经常使用的就有快捷，我的网银，企业网银，退款，撤销，批量代付，批量代扣，单笔代付，单笔代扣，语音支付，余额查询，身份证鉴权，银行卡鉴权，卡密鉴权等。与其对应的支付通道有微信支付，ApplePay，支付宝等30多家支付通道，而且接入了几百家商户。在这三个维度下，如何确保不一样业务、三方、商户、以及支付类型互不影响，咱们所作的就是拆分消息队列。下图是部分业务消息队列拆分图：

（2）限制资源的使用

对于资源使用的限制设计是高可用系统最重要的一点，也是容易被忽略的一点，资源相对有限，用的过多了，天然会致使应用宕机。为此咱们作了如下功课：

限制链接数

随着分布式的横向扩展，须要考虑数据库链接数，而不是无休止的最大化。数据库的链接数是有限制的，须要全局考量全部的模块，特别是横向扩展带来的增长。

限制内存的使用

内存使用过大，会致使频繁的GC和OOM，内存的使用主要来自如下两个方面：

集合容量过大；
未释放已经再也不引用的对象，好比放入ThreadLocal的对象一直会等到线程退出的时候回收。

限制线程建立

线程的无限制建立，最终致使其不可控，特别是隐藏在代码中的建立线程方法。

当系统的SY值太高时，表示linux须要花费更多的时间进行线程切换。Java形成这种现象的主要缘由是建立的线程比较多，且这些线程都处于不断的阻塞（锁等待，IO等待）和执行状态的变化过程当中，这就产生了大量的上下文切换。

除此以外，Java应用在建立线程时会操做JVM堆外的物理内存，太多的线程也会使用过多的物理内存。对于线程的建立，最好经过线程池来实现，避免线程过多产生上下文切换。

限制并发

作过支付系统的应该清楚，部分三方支付公司是对商户的并发有要求的。三方给开放几个并发是根据实际交易量来评估的，因此若是不控制并发，全部的交易都发给三方，那么三方只会回复“请下降提交频率”。

因此在系统设计阶段和代码review阶段都须要特别注意，将并发限制在三方容许的范围内。

及时发现故障

故障就像鬼子进村，来的猝不及防。当预防的防线被冲破，如何及时拉起第二道防线，发现故障保证可用性，这时候报警监控系统的开始发挥做用了。一辆没有仪表盘的汽车，是没法知道车速和油量，转向灯是否亮，就算“老司机”水平再高也是至关危险的。一样，系统也是须要监控的，最好是出现危险的时候提早报警，这样能够在故障真正引起风险前解决。

>>>>

实时报警系统

若是没有实时报警，系统运行状态的不肯定性会形成没法量化的灾难。咱们的监控系统指标以下：

实时性：实现秒级监控；

全面性：覆盖全部系统业务，确保无死角覆盖；

实用性：预警分为多个级别，监控人员能够方便实用地根据预警严重程度作出精确的决策；

多样性：预警方式提供推拉模式，包括短信，邮件，可视化界面，方便监控人员及时发现问题

报警主要分为单机报警和集群报警，而付钱拉属于集群部署。实时预警主要依靠各个业务系统实时埋点数据统计分析实现，所以难度主要在数据埋点和分析系统上。

>>>>

埋点数据

要作到实时分析，又不影响交易系统的响应时间，咱们在系统各个模块中经过redis实时作数据埋点，而后将埋点数据汇总到分析系统，分析系统根据规则进行分析报警。

>>>>

分析系统

分析系统最难作的是业务报警点，例如哪些报警只要一出来就必须出警，哪些报警一出来只须要关注。下面咱们对分析系统作一个详细介绍：

一、系统运行架构

二、系统运行流程

三、系统业务监控点

咱们的业务监控点都是在平常运行过程当中一点一滴总结出来的，分为出警类和关注类两大块。

出警类：

网络异常预警；

单笔订单超时未完成预警；

实时交易成功率预警；

异常状态预警；

未回盘预警；

失败通知预警；

异常失败预警；

响应码频发预警；

核对不一致预警；

特殊状态预警；

关注类：

交易量异常预警；

交易额超过500W预警；

短信回填超时预警；

非法IP预警；

四、非业务监控点

非业务监控点主要是指从运维角度的监控，包括网络，主机，存储，日志等。具体以下：

服务可用性监控：

使用JVM采集YoungGC/Full GC次数及时间、堆内存、耗时Top 10线程堆栈等信息，包括缓存buffer的长度。

流量监控：

经过Agent监控代理部署在各个服务器上，实时采集流量状况。

外部系统监控：

经过间隙性探测来观察三方或者网络是否稳定。

中间件监控：

针对MQ消费队列，经过RabbitMQ脚本探测，实时分析队列深度；

针对数据库部分，经过安装插件xdb，实时监控数据库性能。

实时日志监控：

经过rsyslog完成分布式日志的归集，而后经过系统分析处理，完成日志实时监控和分析。最后，经过开发可视化页面展现给使用者。

系统资源监控：

经过Zabbix监控主机的CPU负载、内存使用率、各网卡的上下行流量、各磁盘读写速率、各磁盘读写次数(IOPS)、各磁盘空间使用率等。

以上就是咱们实时监控系统所作的，主要分为业务点监控和运维监控两方面，虽然系统是分布式部署，可是每一个预警点都是秒级响应。除此以外，业务系统的报警点也有一个难点，那就是有些报警是少许报出来不必定有问题，大量报警就会有问题，也就是所谓的量变引发质变。

举一个例子，拿网络异常来讲，发生一笔多是网络抖动，可是多笔发生就须要重视网络是否真的有问题，针对网络异常，咱们的报警样例以下：

单通道网络异常预警：1分钟内A通道网络异常连续发生了12笔，触发了预警阀值；

多通道网络异常预警1: 10分钟内，连续每分钟内网络异常发生了3笔，涉及3个通道，触发了预警阀值；

多通道网络异常预警2： 10分钟内，总共发生网络异常25笔，涉及3个通道，触发了预警阀值。

>>>>

日志记录和分析系统

对于一个大型系统而言，天天记录大量的日志和分析日志是有必定的难度的。付钱拉天天平均有200W笔订单量，一笔交易通过十几个模块流转，假设一笔订单记录30条日志，可想而知天天会有多么巨大的日志量。

咱们日志的分析有两个做用，一个是实时日志异常预警，另一个是提供订单轨迹给运营人员使用。

>>>>

实时日志预警

实时日志预警是针对全部实时交易日志，实时抓取带有Exception或者Error的关键字而后报警。这样的好处是，若是代码中有任何运行异常，都会第一时间发现。咱们针对实时日志预警的处理方式是，首先采用rsyslog完成日志归集，而后经过分析系统实时抓取，再作实时预警。

>>>>

订单轨迹

对于交易系统，很是有必要实时了解一笔订单的状态流转。咱们最初的作法是经过数据库来记录订单轨迹，可是运行一段时间后，发现订单量剧增致使数据库表过大不利于维护。

咱们如今的作法是，每一个模块经过打印日志轨迹，日志轨迹打印的格式按照数据库表结构的方式打印，打印好全部日志后，rsyslog来完成日志归集，分析系统会实时抓取打印的规范日志，进行解析而后按天存放到数据库中，并展现给运营人员可视化界面。

日志打印规范以下：

简要日志可视化轨迹以下：

日志记录和分析系统除了以上两点，也提供了交易和响应报文的下载和查看。

>>>>

7*24小时监控室

以上的报警项目给操做人员提供推拉两种方式，一种是短信和邮件推送，一种是报表展现。除此以外，因为支付系统相比互联网其余系统自己的重要性，咱们采用7*24小时的监控室保证系统的安全稳定。

及时处理故障

在故障发生以后，特别是生产环境，第一时间要作的不是寻找故障发生的缘由，而是以最快速度处理故障，保障系统的可用性。咱们常见的故障和处理措施以下：

>>>>

自动修复

针对自动修复部分，咱们常见的故障都是三方不稳定形成的，针对这种状况，就是上面说的系统会自动进行重路由。

>>>>

服务降级

服务降级指在出现故障的状况下又没法快速修复的状况下，把某些功能关闭，以保证核心功能的使用。咱们针对商户促销的时候，若是某个商户交易量过大，会实时的调整这个商户的流量，使此商户服务降级，从而不会影响到其余商户，相似这样的场景还有不少，具体的服务降级功能会在后续系列介绍。