在传统的软件测试中,咱们一般经过一个给定的条件来判断系统的反馈,经过断言来判断是否符合预期,测试条件和结果一般比较明确和固定。而混沌工程,是经过注入一些“不肯定”因素,象放进了一群淘气的猴子,在系统资源、可用性、安全性、延迟、压力等方面进行捣乱,而此过程当中,要求系统能够毫无影响的提供服务,用户无感知。node
这其实对系统的自愈能力,健壮性都有很高的要求。故障注入通常是指比较受控的一些实验条件,经过注入一些相对极端的异常场景,为系统提供可靠性测试的过程。 总体来讲,混沌是一种故障注入规则,强调了一些不肯定性、随机性,比较常见的"猴子"有 Netflix 的"猴子军团",能够用来随机关闭系统实例,注入延时,回收资源,检查安全漏洞等等。git
除了通常系统的 monkey,基于 Kubernetes 已经有一些"猴子"工具能够测试系统的健壮性。接下来,介绍一下比较常见的三种 Kubernetes monkey:github
https://github.com/asobti/kube-monkeyjson
https://github.com/bloomberg/powerfulseal小程序
Ali Kubernetes 做为一个管理大规模集群的商业调度系统,须要应对的不只包括一些基本的 Kubernetes 中 pod 误删误停的故障现象,也包含一些底层 OS、内核、网络、误配置等灾难场景。同时因为其支撑业务生态的复杂性,全链路综合异常流也须要特殊的验证。安全
为更系统的进行演练,在过程当中主要进行了如下几部分工做:网络
FMEA 分析就是失效模式和效果分析,旨在对系统范围内潜在的失效模式加以分析,以便按照严重程度加以分类,或者肯定失效对于该系统的影响。
从故障场景上,分析得出较为符合 Ali Kubernetes 的三大类场景:架构
从影响面上,须要 case by case 肯定影响范围为无任何影响,仅影响部分功能,影响核心功能等等;从验证恢复手段上,也能够分为自动恢复、手动恢复,同时须要关注监控状况及恢复时间。app
在分析过程当中,咱们发现,已有的开源工具没法彻底知足 Ali Kubernetes 的故障场景。下面举 2 个典型故障场景:
这个场景并非简单的 pod 随机删除,而是在 kubelet 连错 apiserver 配置等异常状况下,重启 ali-kubelet 后,al 自行判断了容器在当前集群内不存在,本身作了删除操做。
要引入这个故障须要修改 kubelet 组件的配置,重启 kubelet,才算是真正引入了故障,而当前的不管是 kube-monkey 仍是 powerfulseal 场景都没法知足。
有的人可能会说,直接指定 master 组件的机器引入断网操做,是否是就能够了呢?然鹅现实是比较骨感的,咱们也许只知道这个 master 所在集群的 kubeconfig,组件的机器其实也能够随着每次升级变更的。在仅仅已知 kubeconfig 的状况下咱们只能先查一下 master 组件的机器信息,再在机器上引入断网的操做,才算是一个总体的故障引入。而目前全部的开源工具也没有此类稍微复杂一些的场景,只是经过指定 pod namespace 来随机的删除一些 pod。
因此综上所述,其实咱们须要对此进行扩展开发,除了简单的杀 pod,咱们亟需一套能够自由开发的小程序,把这个步骤拼接起来,进行更为复杂的故障注入。
为了知足此类复杂的故障注入,咱们使用了目前集团内正在开发的一套故障注入系统 monkeyking,并在它的基础上扩展了一些 kubernetes 相关的套件,来达到既能够注入 kubernetes 相关的故障,又能够注入一些通用故障,同时又能够相对自由的扩展故障集合的目的。
这个故障注入的演练流程以下图所示:
它的每个步骤均可以是咱们自由扩展的一个或者多个小程序,各个小程序之间的执行顺序也能够自由的定义。考虑到 Ali Kubernetes 的场景,咱们在其中扩展了四大类小程序套件。
在这一部分主要实现了一些比较通用的 os 故障,网络故障,好比最基本的指定一个宿主机断网,指定宿主机重启这类。
这一部分主要实现了一些通用的 Kubernetes 命令,经过指定这些命令和入参,咱们能够执行好比 create delete apply patch 这些操做,来间接的达到注入一些 Kubernetes 相关故障的目的。
实现原理以下:
要点说明以下:
举个例子,上文中 master 组件故障的场景中,咱们就能够利用以上的两类小程序来完成故障注入的操做:
目前咱们和集团安全生产的 MonkeyKing 团队合做,联合在故障注入平台 monkeyking 中集成了开源工具 kube-monkey,实现过程借助了上文的 kubernetes 套件执行,能够经过打标的方式标记受害者,让 kube-monkey 随机的杀受害者 pod。步骤以下:
这一部分比较自由,主要根据 Ali Kubernetes 的业务需求,接入了一些经常使用的小程序。
好比故障演练过程当中,环境须要独占,不容许其余测试执行,在这里实现了一个小程序用来对环境进行加解锁操做;好比校验阶段须要验证服务是否可用,这里实现了一个经过 curl 命令校验返回值的方式验证服务是否可用的小程序;好比故障注入过程可能影响vip挂载,这里也实现了一个调用 vip 服务校验 vip 下 ip 数量及是否可用的小程序。
在 Ali Kubernetes 中,咱们将故障以场景化的方式进行沉淀,将底层 os,内核、网络、误配置等故障联合 Kubernetes 相关故障,引入混沌工程的理念进行注入,有效的发现了不少系统稳定性问题,驱动开发人员更多关注系统健壮性。
后续咱们会在 Ali Kubernetes 演进过程当中持续发力,基于架构和业务场景输入更多 Kubernetes 相关的故障场景,为系统的高可用保驾护航。