Batch Normalization: Accelerating Deep Network Training b y Reducing Internal Covariate Shift

时间 2021-01-02

原文原文链接

挖个坟，最近才看了batch normalize的原始paper，是Christian Szegedy（googlenet作者）的工作，已经在实际工作里用的很多了，再看这个paper还是能感受到作者很深厚的理论基础以及实现能力。 Motivation：深度学习刚出来的时候我们就会遇到这样的问题，如果学习率比较大那么训练会不收敛或者直接nan飞掉，而且初始化参数的分布也十分重要，设置的不好就会导致