Apollo:云规模计算的可扩展协同调度

摘要 在云规模的计算群集上有效地调度数据并行计算作业对于作业性能、系统吞吐量和资源利用率至关重要。随着集群规模和具有各种特征的更复杂的workload的增长,这变得越来越具有挑战性。本文介绍了Apollo,这是一种高度可扩展协同调度框架,已部署到Microsoft的生产集群上,可每天高效地在数万台计算机上调度数以千计的计算(数百万个任务)。该框架通过松散协调的机制利用全局群集信息以分布式方式执行调
相关文章
相关标签/搜索