超全总结 | 阿里电商故障治理和故障演练实践

时间 2019-11-05

原文原文链接

写在前面

近日，在 QCon北京2017大会上，来自阿里巴巴中间件团队的技术专家周洋（花名中亭）发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中，本次演讲的内容获得了一致好评，中亭获选为本次大会的明星讲师。这次演讲总体上分享了从 2011 年至今，阿里巴巴电商平台遇到的诸多有表明性的故障，以及在此过程当中积累的很是多的高可用保障经验和解决方案。前端

本次分享包括两个部分：第一部分会从分布式系统经典依赖故障出发，剖析故障成因，介绍治理方案和技术演进；第二部分从宏观视角探讨构建一套”防故障”设施的重要性，并探讨如何设计一套故障演练系统，介绍故障演练的基本原则和最佳经验。linux

演讲全文

你们好，今天来的人很多，可见对于故障耿耿于怀的人，不止我本身。今天分享的内容主要仍是围绕故障治理有关。众所周知，故障治理自己就是一个比较大的话题，几乎涉及到运维、研发、故障运行管理的所有岗位，奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪，相信45分钟绝对连开头都没讲完。今天的分享，主要仍是回归故障发生的本质，故障缘由角度切入。看是否有一些方法论和通用性的手段能够沉淀出来。但愿能够对你们有所帮助。nginx

今天演讲的主要包括两个部分：第一部分会从分布式系统经典依赖故障出发，剖析故障成因，介绍治理方案和技术演进；第二部分从宏观视角探讨构建一套”防故障”设施的重要性，并探讨如何设计一套故障演练系统，介绍故障演练的基本原则和最佳经验。考虑演讲时间和内容关联度，以前报给大会提纲中的”经过灰度发布提早发现故障”的章节被隐去，有兴趣的同窗能够会后交流。程序员

首先介绍一下我本身，姓名周洋，花名中亭。2011年加入阿里，接触稳定性领域，开始作一些稳定性产品的研发，同时也会承担一些架构演进的推动工做，好比HTTPS改造，电商交易链路升配等。2015年开始搞双11大促，作为共享事业部的大促负责人，保障了双11的稳定。也得到双11老A也就是双11特种兵的称号。shell

共享事业部，对于你们可能比较陌生。若是我换一个说法，商品、交易、会员、优惠、评价、中间件，你们应该就都知道了，双11当天最具挑战的链条之一。右边是中间件核心做战室成员，在过了双11业务高峰后的一张合影。2016年至今，工做的重点在常态稳定性的肯定性方面，今天分享主要也是围绕这部份内容。数据库

分布式系统常见依赖故障治理及技术演进

抛一个问题，什么状况下，你会认为淘宝网挂了？这个问题，相信关注的人不少，不过能给出确切答案的人并很少。由于这个看似简单的问题，真要回答起来好像也不是那么容易。今天的分享，试着先回答一下这个问题。后端

从一张“简单”的页面提及。这张页面叫作商品详情页，相信在坐的各位对这张页面不会陌生，由于对于大部分的人，这张页面是他们在淘宝完成一笔订单的第一步。而商品详情的使命就是把商品的信息没有保留的展现给你们，勾起你们的兴趣，引导你们完成购买或是收藏。从信息展现的角度来说，商品详情页面确实是一张很是简单的页面。缓存

咱们再来看一下商品详情应用的后台架构。商品详情是阿里最先实现静态化应用之一。那些与浏览者无关信息，好比商品标题、图片信息、销售属性组合等信息均直接进入缓存，其余和用户相关的，如优惠、库存、物流、服务等动态信息则经过异步调用方式填充至静态化后的页面框架内。为了在一张页面展现足够多可供决策信息，撩起用户的购买欲望。详情后台必须去依赖很是多的服务应用，聚合足够多的信息。少则几十，多则成百。从这个角度来说，商品详情页面又是阿里依赖最复杂的应用之一。安全

互联网业务的一个主要特色是，业务迭代很是快，天天有新需求，每周都有新发布，每一年都有大重构，每一次变化都有可能致使情况的发生。越是贴近用户的系统，受下游服务影响越大。那么咱们不只好奇，对于详情这个阿里最复杂的应用，下游发生一些情况时，系统会变成怎样？
咱们经过两个实验来观察一下。网络

实验一：假设后端的优惠、库存、物流发生故障，咱们来观察一下商品详情页的表现。

乍一看，好像没什么问题。只是以为页面清爽了一些。或许在这个信息过暴的时代，看着这么清新脱俗的页面，还有一点点暗爽。

在现场作了两个调查，观察你们对实验一的反映。调查1：认为详情页故障了的同窗请举手。结果是现场没有人举手（也多是现场氛围还比较冷）；调查2：你们来找茬，先后两个详情页有多少处不一样？结果：最后有一个妹子说出了正确的答案（你们的热情被调动起来了，由于答对的同窗有《尽在双11》的书赠送）

没有对比就没有伤害，一共有6处不一样。从功能角度，这铁定是一个故障页面。不过从用户体验和业务角度讲，少了这些信息也不影响商品购买，不影响核心用户体验。好像又是没故障？有点纠结，对吧？您先纠结一下子，咱们来进行第二个实验。

实验二：当商品详情的”商品”出了问题，商品详情会怎样？

详情仍是那个详情，只不过是商品详情变成了错误详情。
第一张页面：很抱歉，你查看的商品找不到了。有多是你访问的方式不对，好比URL上面少了一些参数，也多是后台真的出问题，对于用户还算是比较温柔的一种方式。
第二张页面：极可能就是网站真的出问题了。比较可能的缘由是后台没有合理的处理超时致使前端异常。不过说实话，这个页面我也很是少的见到。若是真的出现了，那基本就是一次很是严重的事故。

经过经过上面的两个实验，相信你们应该对于咱们今天要介绍的一个概念”强弱依赖”有一些模糊的感受了。从感性的角度来说，就是当下游依赖服务出现问题时，当前系统会受到一些影响，让用户有感受的是强依赖，没感受的是弱依赖。不过这种定义不够严谨，由于总不能说没有用户访问时，就不算故障吧。因此也须要从理性角度定义一下：首先应该发生情况，其次应该是核心业务，最后是否带来损失。不影响核心业务流程，不影响系统可用性的依赖均可以叫作弱依赖，反之就是强依赖。

终于解释解释清楚强弱依赖，那么作好强弱依赖到底有什么意义？抛开依赖模型来看强弱，意义不大。严谨的依赖模型应该包括关系、流量、强弱三个组成部分。依赖关系定义依赖的方向，我依赖谁，谁依赖我。流量定义着每一个应用、服务、方法调用的次数，强弱则定义着依赖的松紧程度。依赖治理就是经过科学的手段持续稳定的拿到关系、流量、强弱的数据。强弱依赖主要能够被应用到下面的场景：

系统改造验收：对于分布式系统，至少应该作到运行态中不会由于我依赖的系统，后台出现故障引发当前应用出现系统级可用性的故障，好比进程挂掉，频繁GullGC，负载飙高等，合适何地都具有快速止血的能力。
限流降级参考：对于弱依赖，通常都要配置限流或是自动降级策略，比起经过拍脑壳或是经验值来设定，到不如经过实际的故障测试来进行微调，好比对于下游出现超时状况，就能够经过实验得出基于线程池限流到底要填写多少数值。
应用启动顺序：理想状况下，应用启动更应该作到0强依赖启动。不过有一些状况，没法作到。所以应用启动的依赖顺序也须要实时关注。特别是新IDC、机房建站时，那个蜘蛛网同样的依赖关系，最好是经过系统方式得到。
故障根源定位：后台系统的故障，每每经过上一级的业务故障表现出来。故障处理讲究的是争分多秒，良好的强弱依赖，对于系统自动化诊断有很是大的助力做用。
依赖容量评估：正常调用链路下系统容量须要评估，当某个弱依赖挂掉时，总体的容量是否有变化。

说完背景，终于能够聊一下强弱依赖的技术实现。强弱依赖的技术演进，总体上分了3个阶段。每一个阶段的方案的诞生都有其独特的时代背景和业务难点，如今回头看来，也能够看到当时技术的局限性和突破。

熟悉淘宝技术发展史的同窗都知道，2008年阿里刚刚经过一个代号为五彩石的项目，完成从巨石系统向服务化系统的改造。业务和开发开发模式上有了较大的发展，不过网状的依赖关系也带来了很是多的问题。这个纪元的主要特色是：故障频发，技术路和方法都是以结果为导向，糙一点、结果精度差一点能够忍受。

模拟依赖故障技术上有三招，改代码+发布，远程Debug+重启，登录机器去执行一些shell命令操做。好处是，灵活随意，能够必定程度达到效果。坏处是成本高，影响环境稳定，你测试的时候，其余人属于没法工做状态，影响效率。此外，这个阶段，由于分布式链路追踪技术还没起步，因此常常会漏掉一下服务服务。故障的粒度也比较粗，对于一些linux的命令，都是主机级别的。

阿里内部有一套平常环境，主要作上线前的集成测试。为了尽可能减小对环境的影响。咱们经过修改服务版本的方式，造成一个独立的测试环境。记得11年下半年，我开始作初版的时候，我搭了淘宝12个核心应用，踩坑无数，纯体力活，也算前无古人，后无来者了。

经过这套环境跑了几回结果，发给核心的业务TL，你们很兴奋，貌似找到一条治理的路子。
不过很快暴露问题，好比环境的运维归属问题，开发机器的干扰问题，以及对于业务的了解程度和测试粒度问题。因此在很长一段时间测试的范围都局限在交易核心链路。

第二个阶段的核心就是提效，从第一个阶段的痛点入手，解决人的成本和环境的问题。这个阶段以后，基本能够摆脱手工的方式，效率上有大幅度提高。

这个阶段引入了一些测试技术，其中用的比较多的是Selenium，经过这种技术能够提早录制用户行为并转化为测试脚本的技术，而且每个步骤均可以截图记录，方便问题复查。

在这个时期，中间件的技术有必定发展，分布式追踪技术出现，能够把用户访问的链条串联起来，排查问题的效率有了必定提高。同时全部的中间件，如nginx,消息，分布式服务调用，分布式数据库，软负载，配置中心等都作了改造，支持用户流量的标记，追踪，路由控制。基于这项技术，环境的问题有很是大的突破。

在内部，咱们称为叫二套环境。它的核心原理是在基础环境之上，动态区分出一些小环境，他们分别是某个业务的子集。项目之间彼此独立，不会互相调用，只有当依赖的服务不在时，才会去访问基础环境的服务。数据库和缓存是公用的。

在这个阶段，咱们没必要再去修改代码的服务版本，每次发布后，代码的版本等可以自动化的保持一致，运维成本有下降，野服务干扰的状况也有所缓解，人的介入很是的少。不过仍是有一些问题待解决，首先二套环境的路由策略是和用户绑定的，也就是说须要提早去作一些配置。其次，域名上也有一些限制，加了second等前缀，测试路径中URL等复用率低的问题没有彻底解决。第三，测试的粒度仍然很粗，独占机器，规模化推广时机器成本，用例运行的成本仍是很高。第四，功能性缺失。不被二套环境的基础设施故障无法模拟，好比数据库故障，缓存故障等。

2014年的时候，咱们的思惟方式有了比较大的突破。咱们再也不纠结于环境和外部手段的改进，而是回归到强弱依赖关注最核心的部分。那就是业务影响和系统设计。可否实现一种只与代码设计和业务相关，而与外部环境无关的方案呢？

这期间有两个关键思路或是推论：

推论1：咱们要的是下游依赖出现故障现象，没必要真的是下游服务提供方出现故障。只要消费方感受下游出现故障便可。从这个思路来说，商品详情端若是要作强弱依赖测试，只要本身玩就够了，不须要去折腾下游依赖的几十个应用。

推论2：咱们之因此须要单独搭建环境，为的就是控制故障的影响范围。那么咱们能够换一下思路，就是咱们只影响要发生故障的请求，其余的业务流量都放过。是否是就达到目的了。本质上是一种对业务流量的筛查能力。

有了上面的思路，第一问题就是如何拦截用户的请求？拦截用户请求，让用户改形成本最低，没有什么地方比中间件更适合了。每一个通用的远程调用接口，都是能够作文章的点，而且中间上层的业务系统不用作任何改造。

下一个问题就是故障规则和业务识别，咱们曾考虑在用户请求的入口就打上标记，置入故障规则，不过发现对于post请求，异步js请求，定时任务等都有比较大的改形成本，有安全隐患。因此就增长了一个服务端，直接下发故障规则到依赖插件上。故障插件经过对流量的调用拦截+业务识别惟一肯定影响哪个请求，而后经过故障规则判断是注入异常仍是超时。从而达到模拟故障的效果。由于插件可扩展的设计，因此咱们默认是能够同时注入多种故障场景的。同时插件也会把影响到请求的详细信息异步上报给服务端作分析。

理论上经过上述的方案，在业务流量输入方面，咱们没有任何要求。不管是人的自发测试行为，仍是机器的测试行为，都没有任何限制。只不过为最大限度复用已有的测试用例积累，提升自动化程度，咱们设计了一套用例注解，封装了和强弱依赖服务端的通讯。利用Junit生命周期的特色完成故障规则的下发和清除。任何一个测试用例，20秒以内改形成一个强弱依赖的测试用例。在结果输出方面，会详细的展现一次强弱依赖检测的过程，以及测试用例涉及到的链路的依赖变化。到此阶段，强弱依赖真正达到了一个相对里程碑的版本，2014年开始，强弱依赖也做为双11必作的一个横向项目。

下面是强弱依赖注解和依赖系统的示例：

小结部分，从新回顾了强弱依赖的定义、意义。整个强弱依赖技术演进历史，就是对数据准确性，稳定性，成本、效率的追求和平衡。

故障演练的基本原则和最佳系统设计实践

众所周知，2017年不大太平，业界出现了不少大故障。

2017-03-01 弗吉尼亚州数据中心出现故障，亚马逊S3 服务出现了较高的错误率，直接影响到成千上万个在线服务
2017-1-31 GibLab同窗线上数据库变动时，遇到突发了一个状况。由于操做失误，致使整个生产数据库被误删除，丢失6个小时的数据。
2017年 2月份国内的一家常常被测试网络连通性的友商也出现了故障，引发工信部的关注，并紧急约谈了相关公司。同时，下发紧急通知，要求BAT等各重点互联网企业吸收教训。业界一片哗然。

这时候，有一家公司显得特别淡定，那就是Netflix。 Netflix是一家服务全球的在线影片租赁提供商，他的核心业务彻底架设在AWS上面。据新闻揭露，Netflix在亚马逊故障时能够很快的恢复正常（前文的新闻稿是针对早些时候AWS的故障，非2017S3故障），由于他们内部有一个”防故障”的基础设施。听起来，好像是咱们须要的东西。

深刻调查以后，发现防故障基础设施背后是一个猴子军团。

早在2012年，Netflix就发布了Chaos Monkey。用来在随机杀死实例，据官方数据指出，到目前累计杀死65,000个节点。他们的测试策略也比较有趣：在工做时间在生产和测试环境运行，目标测试系统的健壮性，训练后备人员，让恢复更简洁、快速、自动；Latency Monkey的做用就是让某台机器的请求或返回变慢，观察系统的表现； Chaos Gorilla，大猩猩。他的能力是搞挂一个机房，宏观验证业务容灾和恢复的能力。

Netflix发布猴子军团的缘由是由于，他们很早就吃过云故障的亏，因此本能是认为云设施是不可靠的，必须在经过演练来验证软件层面的容灾。

古代有个哲学家说过”没有人曾经两次踏进同一条河流”，由于不管是这条河仍是这我的都已不一样。故障也是相似的，故障发生的时间地点，影响流量，与故障打交道的人都无法彻底相同。从这个角度看，故障治理自己是一个伪命题，都是在解决过去某一个时刻的问题。不过从程序员视角（我习惯叫上帝视角），任何故障的缘由都是可被定位的，避免相同缘由重复引起故障，是每一个程序员应该执着追求的目标。电商历史上遇到了很是多有表明性的故障，为了避免让故障重复发生，阿里内部也打造了一套”防故障”的基础设施。

2015年5月27日，由于光纤电缆的问题，支付宝大规模宕机事故，公司内部得出一个结论：任何基础设施、生产系统、任何流程均可能出现问题，没有通过重大灾难验证的容灾设施都是耍流氓。启动了代号为虎虎虎的生产突袭项目，用来验证异地多活的质量。
2012年，完成交易的同城双活后，就启动了同城容灾演练，也叫断网演练。验证核心系统的同城一个机房挂掉的状况下，是否还能够正常工做。
2011年，开始作强弱依赖的治理和建设，但愿提早发现由于依赖问题致使的系统故障，系统的代号是EOS（出处是古希腊神话中的黎明女神，语意是可以把纷乱的依赖关系梳理清楚）

能够看到，这三大件和Netflix的猴子军团从功能上基本上是对标的。那是否是就应该没有故障，安枕无忧了呢？答案铁定是否是。

阿里巴巴由于其多元化的业务场景和日益复杂的技术架构，会遇到各式各样的故障，故障治理的难度相比流媒体服务故障治理，难度是也增量了几个台阶。前面介绍过的强弱依赖和容灾演练只能覆盖到部分故障。若是对故障总体作初步画像，故障总体能够分为IaaS层、PaaS层、SaaS层的故障，每一层均可能有不少故障出发缘由和表现。那么对于这么多种类繁杂的故障，心里必定是懵逼的。咱们要如何重现进而避免这么多繁杂的故障呢？

熟悉三体的同窗应该据说过”降维攻击”这个词，不妨让咱们把维度下降一下，换一个视角看故障：

任何故障，必定是硬件如IaaS层，软件如PaaS或SaaS的故障。而且有个规律，硬件故障的现象，必定能够在软件故障现象上有所体现。
故障必定隶属于单机或是分布式系统之一，分布式故障包含单机故障
对于单机或同机型的故障，以系统为视角，故障多是当前进程内的故障，好比：如FullGC，CPU飙高；进程外的故障，好比其余进程忽然抢占了内存，致使当前系统异常等。
同时，还可能有一类故障，多是人为失误，或流程适当致使，这部分咱们今天不作重点讨论。

任何故障均可以套入到这个故障模型中。有了这个模型，咱们就能够开始来设计模拟故障的演练系统了。

因此在内部，咱们起了一个代号叫作”大圣归来”的项目，项目名叫作”故障演练”，承载的产品叫作MonkeyKing。MonkeyKing是中国美猴王的意思，看重的是孙悟空高强的本领（火眼精金、七十二变）和极具反叛的精神来，但愿用一种创新的思路来保证稳定性。

咱们的系统实现，也是围绕前文讨论的故障模型来设计的：

在客户机器部署OS层的故障插件，用来模拟硬件层的故障和单机进程外的故障。
对于应用进程内的故障，提供插拔式的故障插件，也能够用户按照咱们的故障API作本身的实现。
对于分布式故障，则经过服务端按照IP来控制故障的范围。
对于一些由于各类缘由没法触及的应用，好比数据库。咱们提供了一个故障三方实现的标准，供故障服务接入。

经过上面的方式，基本上就把技术型故障的模型就cover全了。

在去年的双11中，故障演练的应用场景主要应用在图中的几个场景。按照业务流量、压测流量的峰值能够划为4个象限。具体案例以下（这部分现场由于时间关系，没有展开说，为新增部分）：

预案有效性：过去的预案测试的时候，线上没有问题，因此就算测试结果符合预期，也有多是有意外可是现象被掩藏了。
监控报警：报警的有无、提示消息是否准确、报警实效是5分钟仍是半小时、收报警的人是否转岗、手机是否欠费等，都是能够check的点。
故障复现：故障的后续Action是否真的有效，完成质量如何，只有真实重现和验证，才能完成闭环。发生过的故障也应该时常拉出来练练，看是否有劣化趋势。
架构容灾测试：主备切换、负载均衡，流量调度等为了容灾而存在的手段的时效和效果，容灾手段自己健壮性如何。
参数调优：限流的策略调优、报警的阈值、超时值设置等。
故障模型训练：有针对性的制造一些故障，给作故障定位的系统制造数据。
故障突袭、联合演练：经过蓝军、红军的方式锻炼队伍，以战养兵，提高DevOps能力。

故障演练宣言：把故障以场景化的方式沉淀，以可控成本在线上模拟故障，让系统和工程师平时有更多实战机会，加速系统、工具、流程、人员的进步。

关于将来

故障演练的后续工做主要会关注在如下方向：演练常态化、故障标类化、演练智能化。用常态化的演练驱动稳定性进步，而不是大促前进行补习；丰富更多的故障场景，定义好最小故障场景和处理手段；基于架构和业务分析的智能化演练，沉淀行业故障演练解决方案。

企业级互联网架构Aliware，让您的业务能力云化：https://www.aliyun.com/aliware