SRE Google 运维解密 具体实践二

十四、管理关键状态:利用分布式共识来提高可靠性 跨物理区域分布式运行系统可以解决很多的系统灾备问题,以保障在灾难来临时系统仍然能正常运行。但是却带来维护系统一致状态视图的需求,而这个问题的解决常常是复杂且难以实现的。 一组服务进程可能想要可靠地对以下问题产生共识: 哪个进程目前是该组织进行的leader? 本组中都包含哪些进程? 是否已经将某个消息成功地插入了某个分布式队列? 某个进程目前是否还持
相关文章
相关标签/搜索