【模型性能2-泛化产生】Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

转载https://blog.csdn.net/xxiaozr/article/details/80346381 Abstract: 这篇论文发现,在 ImageNet dataset 上使用 large minibatch 会导致优化困难,但是当这个问题解决了,模型具有更好的泛化能力,并且没有精度上的损失 为达到这个目的,我们提出了 hyper-parameter-free linear sca
相关文章
相关标签/搜索