1 Chaos体系缓存
1.1 Chaos之混沌工程安全
1.2 混沌的框架原则的理解微信

爱奇艺金融科技团队的混沌原则更多的是应对不可预知场景下系统架构、人员架构对于问题的应对能力,如隔离、告警、自我修复能力等,主要倾向工程层面、架构层面、研发流程体系层面、灾难预警恢复层面等。架构
1.3 Chaos - Monkey并发
理想的Chaos Monkey是Chaos体系的执行者,是基于场景为某个特定目标而生的,是一种可执行、可按预期销毁的手段。它主要负责寻找系统中任意一个盲区,而且利用盲区对系统实现某种程度而且可控的破坏。框架
2 矛盾大战的目的和设计分布式
爱奇艺金融科技团队在高安全、高并发、高可用上遇到了不少挑战,同时金融系统相比于常规系统,在用户隐私、资金安全、敏感数据上有极高的要求,所以咱们构建Chaos攻防模型,不断实施攻防对抗,逐步提升系统健壮性,为业务保驾护航。svg
目标以下:微服务
-
创建Chaos Monkey的攻击能力、执行流程来辅助及验证服务架构的实施效果,从而给架构演进提供指导和参考价值; -
创建架构与业务的生产关系,达到架构与业务的双向促进,提升系统稳定性、可用性、健壮性; -
经过架构与业务生产关系的良性循环,提升技术同窗对整个系统的掌控力、技术实力更好的为业务服务。

-
Chaos攻击能力的建设及升级:
-
制定计划及设置风险范围:
Chaos Monkey能力训练知足要求后,按照假定目标制定整个实施计划,包括执行时间、执行过程、影响范围、执行手段、结果预期、故障恢复、是否静默执行等,最后进行自动化实施准备。高并发
-
执行与反馈:
执行前check无异常后开始实施同时观察监控系统、业务系统、告警系统,实施结束后恢复当前系统并给出相应反馈包括详细描述,优化建议等。
-
系统优化及能力提高:
业务owner收到结果反馈后需对已存问题进行review、评估整改方案、修复计划并检查同类问题,最后进行系统升级。
-
修复验证及业务需求:
收到业务系统升级上线通知后再次与业务review预期目标,而后进行验证性攻击检验修复效果同时记录case库。
业务owner也能够向Chaos Monkey申请攻击来验证当前系统的真实状况。
3 Chaos 攻防的拷问及设计实施原则
Chaos 攻防的拷问:
-
支付、金融 架构设计是否存在问题? 原来的架构设计是否是再也不符合咱们的预期了? 设计方案和当前生产系统实现之间差了多少? -
支付、金融 服务底线都是什么,支付、金融服务的隔离颗粒度? 咱们能承受哪些,能承受多长时间,咱们不能承受哪些? -
咱们 系统的高可用程度? 高可用节点切换过程会发生什么? HA的切换手段、切换(不可用)的间隔? 切换成功的时间和一致性的时间是否是有关? 等等。
设计实施原则:
-
为设计漏洞、代码缺陷而生同时面向生产环境,作到要发现问题更要可控; -
不拘于手段和形式。不管是使用开源工具,仍是切断网线、偷偷杀掉进程、仍是进程植入,内存数据篡改都是一种面向某个目的可实施手段; 监控告警辅助支撑,最大化风险评估,细化到流量的损失控制等。
4 攻防战绩
4.1 执行大类分布

4.2 已执行攻防case分类列表

4.3 实战案例举例
例1:验证支付系统微服务Spring Cloud套件的高可用机制
涉及Eureka Server、Client、Ribbon LB及当前业务对配置掌握的合理性。
验证结果:当前架构能在30s内应对下游节点的无前兆故障。
优化建议:调整LB的探测时间,Eureka Client、Ribbon Cache缓存时间,服务心跳续约,Eureka Server服务剔除、数据同步时间等增强架构对故障的应对能力同时减小相似问题对业务的影响。
执行结果:非核心依赖中间件发生服务抖动、服务故障时系统无降级策略,直接致使整个业务没法服务,不符合架构原则。
优化建议:业务系统增长对非核心依赖故障的降级及切换策略。优化链接池配置来应对当非核心依赖中间件出现问题时下降性能损耗及减小切换的时间差。
5 思考总结
5.1 总 结
随着Chaos体系的逐渐成熟,体系内自驱力逐渐减小,Chaos会进入一个新的阶段就是常态化。这个阶段再也不是以暴露发现系统现有实施问题为主,而是面向系统架构的未来以及系统健壮性、可用性的稳固。主要有如下几点:
Chaos将进入不按期按照已经积累case库进行自动化巡检。
Chaos进行不按期面向架构层面进行实弹演习,检验他们的战备值班能力。
(3)新技术、中间件的探索验证
对于新技术、新中间件甚至是自研的中间件可利用Chaos Monkey进行符合业务需求的健壮性、可用性探测验证。
(4)触类旁通
5.2 思 考

也许你还想看


本文分享自微信公众号 - 爱奇艺技术产品团队(iQIYI-TP)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。