如何理解深度学习中分布式训练中large batch size与learning rate的关系

转自:https://www.zhihu.com/people/xutan 最近在进行多GPU分布式训练时,也遇到了large batch与learning rate的理解调试问题,相比baseline的batch size,多机同步并行(之前有答案是介绍同步并行的通信框架NCCL(谭旭:如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL?),有兴趣可以查看)等价于增大batch
相关文章
相关标签/搜索