大规模机器集群-故障自动处理(二)

本篇开始介绍具体的实现过程,为表述方便,先定义一些名词, AutoRepairSystem: 故障自动维修系统, 缩写为ARS 原子操作:任务的最小操作,机器任务通常是指重启、重装 运维人员:运维工程师= SRE = OP,系统工程师 = sys 远程管理工具: 远程控制操作物理机器的工具,如ipmi、ilo   先来看ARS的整体视图和流程图,         ARS的工作流程, 故障检测: 每
相关文章
相关标签/搜索