SRE Google 运维解密 具体实践二

十4、管理关键状态:利用分布式共识来提升可靠性 跨物理区域分布式运行系统能够解决不少的系统灾备问题,以保障在灾难来临时系统仍然能正常运行。可是却带来维护系统一致状态视图的需求,而这个问题的解决经常是复杂且难以实现的。 一组服务进程可能想要可靠地对如下问题产生共识: 哪一个进程目前是该组织进行的leader? 本组中都包含哪些进程? 是否已经将某个消息成功地插入了某个分布式队列? 某个进程目前是否还
相关文章
相关标签/搜索