【每周论文】Apollo: Scalable and Coordinated Scheduling for Cloud-Scale Computing

依旧是关于集群作业调度的文章,发表在OSDI 2014,是微软的工作。与之前看的中心化调度工作不同,Apollo与Sparrow一样采用了分布式框架,并且和Omega一样采用了共享集群状态的方式让每个调度器都拥有全局视角。最重要的是Apollo已经部署在微软的生产环境上了,每天都要对数十亿个作业进行合理的调度,其性能肯定没得说了。 以微软当时的并行计算的生产环境为例,每个集群有超过2万台服务器,有
相关文章
相关标签/搜索