小蚂蚁说:支付宝红蓝CP又开始平常“互怼”啦!为了迎接年度技术“期末考试”周,技术蓝军每周都会组织突袭攻击“测验”,经过实战中发掘出来的脆弱点牵引红军进行能力升级。而红军的防控体系建设也在如火如荼地进行着,实时核对平台可以作到稳定的分钟级核对异常发现能力,还能提供业务快速接入的能力。安全
为提高全面风险意识,持续提高业务及技术架构的风险应对能力,从2016年开始,支付宝探索并创建了“红蓝对抗”机制,经过全栈级别的大型技术攻防演练,加强团队应急处理能力和系统防御水平。架构
支付宝技术蓝军正在布置“突袭”计划运维
“技术风险是全部蚂蚁技术人须要具有的最关键的能力”, 蚂蚁金服副CTO胡喜介绍,随着今年12月技术期末考周结束,支付宝技术团队正将风险从一个不肯定的事变为肯定性的事。spa
支付宝低调神秘部门SRE浮出水面blog
“红军重点防守,蓝军重点进攻,实现以演练促防护,以演练加强风险意识的长期目标”,蚂蚁金服技术风险部资深总监陈亮介绍,蓝军从属SRE部门,红军包括SRE及各业务部门技术团队。图片
SRE全拼为Site Reliability Engineer,是软件工程师和系统管理员的结合。据悉,目前全球只有少数几家顶级互联网公司拥有真正意义上的SRE团队,蚂蚁金服是其中之一。支付宝
支付宝这支技术蓝军的主要职能是寻找系统“软肋”,并随时攻击。陈亮介绍,除了每一年12月第三个星期为年度技术“期末考试”周,平常中每周技术蓝军都会组织突袭攻击“测验”,经过实战中发掘出来的脆弱点牵引红军进行能力升级。产品
支付宝风险防控能力全面开放it
除了每周“突袭”,每一年还有期中考试和期末考试各一场。这样三年实践下来,支付宝的“红蓝对抗”演练已经沉淀为一整套成熟的风险防控体系,经过仿真环境模拟天灾人祸,以此考验技术架构的健壮性及技术人员的应急能力,从而全面地提高系统稳定,实现系统的高可靠性和高可用性。class
“技术风险主要表现为天灾和人祸。天灾指的是,当出现台风、断网、火情等极端异常状况的时候,系统如何快速应对“。陈亮介绍,这有点相似于今年杭州云栖ATEC大会上,蚂蚁金服副CTO胡喜现场演练的异常断网状况下,“三地五中心”自动切换,保证支付服务不中断。人祸则是指因技术人员操做失误引起故障后,系统如何快速应。
据悉,这些技术风险相关的能力也经过蚂蚁金融科技官网(tech.antfin.com)正式对外开放。目前,包括容灾应急平台、全链路压测、资金安全监控、变动管控、巡检平台以及黑屏运维管控等产品。