RingAllreduce和NCCL

(2017年)百度将高性能计算引入深度学习:可高效实现模型的大规模扩展 RingAllreduce;适用于单机多卡/多机多卡; 关键在于认识到机器硬件拓扑,然后根据拓扑去构建使得最大的边延迟最小的方案; (Step1, Step2, Step3那种AllReduce,在多机通过交换机互联情况下,也可以和机器数目无关);   NCCL是最快的! 不同的GPU卡拓扑,采用环形AllReduce,性能是
相关文章
相关标签/搜索