Batch Normalization: Accelerating Deep Network Training b y Reducing Internal Covariate Shift

挖个坟,最近才看了batch normalize的原始paper,是Christian Szegedy(googlenet作者)的工作,已经在实际工作里用的很多了,再看这个paper还是能感受到作者很深厚的理论基础以及实现能力。 Motivation: 深度学习刚出来的时候我们就会遇到这样的问题,如果学习率比较大那么训练会不收敛或者直接nan飞掉,而且初始化参数的分布也十分重要,设置的不好就会导致
相关文章
相关标签/搜索