大规模集群故障处理

我相信每一个集群管理员,在长期管理多个不同体量及应用场景的集群后,都会多少产生情绪。其实这在我看来,是一个很微妙的事,即大家也已经开始人性化的看待每一个集群了。   既然是人性化的管理集群,我总是会思考几个方向的问题:   集群的特别之处在哪儿? 集群经常生什么病? 对于集群产生的突发疾病如何精准地做到靶向定位? 应急处理故障之后如何避免旧除新添?   在长期大规模集群治理实践过程中,也针对各个集
相关文章
相关标签/搜索