【模型性能1-泛化原因分析】On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

转载 https://blog.csdn.net/zhangboshen/article/details/72853121 这是一篇发表在ICLR2017上面的文章。 这篇文章探究了深度学习中一个普遍存在的问题——使用大的batchsize训练网络会导致网络的泛化性能下降(文中称之为Generalization Gap)。文中给出了Generalization Gap现象的解释:大的batchsi
相关文章
相关标签/搜索