[论文阅读] Batch Normalization: Accelerating Deep Network Training By Reducing Internal Covariate Shift

Background 存在什么问题? 训练深度神经网络是比较复杂的,因为每层输入的分布在训练过程中都在变化。如果每层输入的分布在不停的变化,那我们就需要不停的调整我们的参数去补偿这部分变化,这就使得训练过程更加缓慢。 此外,由于分布的变化使得使用saturating nonlinearity function变得更加难以训练。 首先我们区分什么是saturating,什么是non-saturati
相关文章
相关标签/搜索