如何理解深度学习分布式训练中的large batch size与learning rate的关系？

时间 2020-12-20

原文原文链接

问题详情：在深度学习进行分布式训练时，常常采用同步数据并行的方式，也就是采用大的batch size进行训练，但large batch一般较于小的baseline的batch size性能更差，请问如何理解调试learning rate能使large batch达到small batch同样的收敛精度和速度？回答：最近在进行多GPU分布式训练时，也遇到了large batch与learnin