2020-05-15-用于深度学习训练的分布式多租户GPU集群分析

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads 作者提出分布式机器学习系统中出现的三个问题: 作业调度 GPU利用率 训练中会产生的错误 作业调度 由于分布式机器学习中要求资源限制而使用gang调度算法,因此会产生资源碎片导致利用率不高。 由于需要同步参数因此分布式作业locality非常重要
相关文章
相关标签/搜索