【每周论文】Apollo: Scalable and Coordinated Scheduling for Cloud-Scale Computing

时间 2020-12-30

原文原文链接

依旧是关于集群作业调度的文章，发表在OSDI 2014，是微软的工作。与之前看的中心化调度工作不同，Apollo与Sparrow一样采用了分布式框架，并且和Omega一样采用了共享集群状态的方式让每个调度器都拥有全局视角。最重要的是Apollo已经部署在微软的生产环境上了，每天都要对数十亿个作业进行合理的调度，其性能肯定没得说了。以微软当时的并行计算的生产环境为例，每个集群有超过2万台服务器，有

>>阅读原文<<