干货 | 通过不断地失败来避免失败,携程混沌工程实践

作者简介  Ctrip SRE,负责携程网站系统可靠性保障,探索和落地高可用体系的运维架构,如多活容灾、全链路压测、混沌工程、AIOPS等。 混沌工程的核心思想是通过不断地失败来避免失败,以主动制造故障的方法来宏观地验证业务的容灾和恢复能力。本文讨论了携程在实践混沌工程以来的想法和方案,希望能带来一些参考和启发。 我们对故障何时会发生一无所知,而故障也无可避免地一定会发生。   一、我们为什么要做
相关文章
相关标签/搜索