论文：accurate ,large minibatch SGD：Training ImageNet in 1 Hour

时间 2020-12-20

原文原文链接

Abstract: 这篇论文发现，在 ImageNet dataset 上使用 large minibatch 会导致优化困难，但是当这个问题解决了，模型具有更好的泛化能力，并且没有精度上的损失为达到这个目的，我们提出了 hyper-parameter-free linear scaling rule，用来调整学习率，学习率是有关于 minibatch size 的一个函数，还提出了一个 war