Blink:网络自适配的GPU集群通信库 - 深度学习集群

https://www.infoq.cn/article/8N5rWvUSR1W6ss4AtgXi 2019 年 10 月 29 日 13:53 笔记:   摘要 当下大规模分布式机器学习模型训练中,数据并行是最广为使用的方法。随着 GPU 的算力不断提升,GPU 间的数据聚合(即模型同步)成为了大规模分布式模型训练的瓶颈。当下流行的数据聚合库函数(Nvidia 的 NCCL,百度的 Ring-A
相关文章
相关标签/搜索