摘要: 由蓝军主导的技术攻防演练就是那个传说中的“疯起来连本身都打”的项目。程序员
若是一个技术团队不干别的,专门“搞破坏”,这是一种怎样的存在?这真的不是“天方夜谭”,在支付宝确实有这么一支队伍——技术蓝军。蓝军的任务就是不断地攻击和进攻,而防守方则是技术红军。在支付宝,蓝军从属于蚂蚁金服技术风险部(SRE),而红军则包括SRE及各业务部门的技术团队。安全
说到SRE,就须要科普一下了。SRE全拼为Site Reliability Engineer,是软件工程师和系统管理员的结合,是一种要求极高的技术工种。听说,目前全球只有少数几家顶级互联网公司拥有真正意义上的SRE团队,蚂蚁金服是其中之一。网络
由蓝军主导的技术攻防演练就是那个传说中的“疯起来连本身都打”的项目,今天,就来起底一下这个神秘的项目。架构
红蓝军技术攻防演练与蚂蚁金服技术风险部的发展息息相关,而蚂蚁技术风险的演进轨迹和游戏中的不断打怪升级很是相像。并发
早期是质量+运维+架构师三角协同,各司其职并自发性的开展一些技术风险相关的工做。2013年,蚂蚁金服技术团队提出了质量2.0战略,以统一的规章、统一的流程和统一的阵型,开始体系化地沉淀故障检测等方面的平台化能力。运维
大概一年后,也就是2014年,专门成立了技术质量部,从全域视角解决技术风险的问题。优化
2015年,技术质量部正式升级成为技术风险部,专一研发及架构的技术风险问题,并完成相应解决方案和落地的平台。spa
2016年,技术风险部再次升级为SRE团队。设计
SRE团队组建后,就开始全面开展故障自动定位、自适应容灾、防抖、精细化高可用等工做。其中防抖这块,要保证任何的网络或基础设施抖动,用户都无感知;而精细化高可用,又叫单笔高可用,其颗粒度能够精准到用户的每一笔交易,远远优于行业内的机房级高可用。3d
同时,那个热衷“找茬”的组织——技术蓝军也正式成立。这个专门的、拥有独立职能的团队不干别的,主要职责是挖掘系统的弱点并发起“真实”的攻击,红蓝军技术攻防演练也自此诞生。
牛X的是,技术蓝军并不对各业务方负责,只对应用架构及防护系统的稳定性和可靠性负责。在蓝军眼中,故障的发生是必然的,只是时间迟早而已。蓝军只有想尽办法去触发这些故障,这样,在故障真实发生的时候,才有足够的应付能力。
因此,蓝军发掘各种脆弱点,并经过红蓝军技术攻防演练,不断验证防护系统的可靠性。而故障防护系统及不断优化的高可用架构则是由SRE团队的红军与各业务深度合做,沉淀、构建出来的。
技术蓝军正在进行做战部署
如今,全栈级别的技术攻防演练每周都在进行,蓝军彷佛对“疯起来连本身都打”很上瘾。
持续不断的攻防演练,让蓝军和红军的技术能力获得了极大地提高,同时双方“武器库”也在不断升级。
2017年秋天,蓝军团队在成立后的两个月内,自主研发了字节码级别的故障注入系统Awatch,这个武器的厉害之处在于能够实时地对运行中的业务系统进行任意链路的编织侵入。这对于对于技术蓝军以及整个红蓝攻防体系,具备里程碑式的意义。
蓝军研发出了厉害的武器,红军也没闲着。
与此同时,技术红军的防控体系建设也在如火如荼地进行着,实时核对平台横空而出。该平台可以作到稳定的分钟级核对异常发现能力,在某些场景下能够作到秒级发现,而且平台提供了业务快速接入的能力;红军还在实时核对平台的基础之上,升级演化出一套智能核对平台(内部代号四道防线),引入AI技术自动识别业务问题,目前这套防线已经覆盖蚂蚁80%以上的业务。另外,各个业务域针对自身业务的一些特殊性,也研发了相应的核对系统。
尽管蓝军制造故障的能力有很大的提升,但大部分的故障场景主要是各个业务方提供的,只有极少数是蓝军人工梳理业务或者分析代码产出。此时,蓝军团队认为,平常演练常态化,在故障场景发现方面不能再依赖业务,必须创建自主发现故障场景的能力。
用“可乐山”明志,是程序员常见的套路
2018年3月,蓝军推出故障场景挖掘平台,基于Awatch探针探测应用内数据流,以此进行“弱点挖掘”。这套弱点挖掘体系,可以自动发现故障场景,最高可以在5分钟内产生500+的故障场景,红蓝攻防的平常演练的最为重要一块拼图终于完成!
然而新的问题来了。
蓝军的故障挖掘平台能力毋庸置疑,但有攻击就须要应急,高频攻防实施亦会给红军带来大量的人力消耗。持续应急压力驱动,红军开展““故障自愈”架构体系升级及能力建设,以效能为目标,结合仿真,红蓝军一块儿研发了“无损”攻防体系,而且推出与之匹配的度量平台,自动度量攻防结果,数据可视化。
目前,常态红蓝技术对抗保持每周200+个故障场景的节奏在持续运做。
在线、实时、随地、无差异……这是支付宝技术蓝军实施攻击行为的几大标签。
2017年年末的红蓝技术攻防周,技术蓝军发起攻击,但因为故障组件一处隐藏bug致使故障命中数量远远大于预期,给红军增添了很多麻烦,业务线的技术同窗投入大量的人力和资源进行善后。此情此景之下,红军方面不只没有抱怨,反而给予蓝军鼓励,“此次预期外的故障攻击是最真实的应急锻炼!”
2018年年中的一次红蓝技术攻防中,蓝军在周末发起突袭,而恰好红军的相关同窗正在举办婚礼。因而,一群程序员赶忙拿出吃饭的家伙,噼里啪啦敲着键盘进行应急,那画面简直不要太美了。
仍是在2018年的一次对抗中,红军祭出了“尖端武器”——自适应防灾、防抖等,这让蓝军吃尽苦头,几乎每次攻击都无功而返。挫败感飙升的蓝军最终放出大招,让红军接受了很是猛烈的炮火洗礼。
有意思的是,彷佛蓝军攻击得越欢,红军的同窗越高兴……虽然看上去很受虐,但却没毛病,由于蓝军攻击得越狠越深刻,被挖掘和发现出来的技术风险就会越肯定,防护系统的能力也会所以而获得提高。
除了设计缜密的防护措施防止袭击,程序员拜关公求庇佑也是“习俗”
使人震惊的是,为了防止蓝军的“袭击”,红军除了在防护系统方面下十足的功夫,每一年期中和期末的红蓝技术攻防演练,红军都要举办一个仪式——那就是拜关公,除了叩拜,还得给驱邪镇恶的关公献礼,礼品包括旺仔牛奶、格子衬衫、键盘、香烟等。
蚂蚁金服技术风险部门通过不断地升级,并将红蓝技术攻防演练造成常态化。除了每周进行全栈级别的演练,每一年还会举行规模极大的“期中考试”和“期末考试”。这意味着,支付宝的风险防控体系持续地经受打磨与锤炼。
目前,支付宝的“红蓝对抗”演练已经沉淀出一整套成熟的风险防控体系,经过仿真环境模拟天灾人祸,去考验技术架构的健壮性及技术人员的应急能力,从而全面地提高系统稳定,实现系统的高可靠性和高可用性。
所谓的天灾和人祸。天灾指的是,当出现台风、断网、火情等极端异常状况的时候,系统如何快速应对。这有点相似于今年杭州云栖ATEC大会上,蚂蚁金服副CTO胡喜现场演练的异常断网状况下,“三地五中心”自动切换,保证支付服务不中断。人祸则是指因技术人员操做失误引起故障后,系统如何快速应。
在蚂蚁金融科技官网(https://tech.antfin.com/)上能够看到,这些技术风险相关的能力已经对外开放,目前共有3款产品,包括容灾应急平台、全链路压测和资金安全监控;另外,还有3款产品,变动管控、巡检平台和黑屏运维管控即将上线对外开放。