RingAllreduce和NCCL

时间 2021-07-13

原文原文链接

（2017年）百度将高性能计算引入深度学习：可高效实现模型的大规模扩展 RingAllreduce；适用于单机多卡/多机多卡；关键在于认识到机器硬件拓扑，然后根据拓扑去构建使得最大的边延迟最小的方案；（Step1, Step2, Step3那种AllReduce，在多机通过交换机互联情况下，也可以和机器数目无关）； NCCL是最快的！不同的GPU卡拓扑，采用环形AllReduce，性能是