如何理解深度学习中分布式训练中large batch size与learning rate的关系

时间 2020-12-20

原文原文链接

转自：https://www.zhihu.com/people/xutan 最近在进行多GPU分布式训练时，也遇到了large batch与learning rate的理解调试问题，相比baseline的batch size，多机同步并行（之前有答案是介绍同步并行的通信框架NCCL（谭旭：如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？），有兴趣可以查看）等价于增大batch