依赖治理、灰度发布、故障演练,阿里电商故障演练系统的设计与实战经验

作者|中亭 编辑|小智 2016 年,阿里巴巴研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。本文将探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。 注:本文整理自阿里技术专家中亭在 QCon 北京 2017 上的演讲,由阿里技术公众号授权转载。 写在前面
相关文章
相关标签/搜索