论文笔记:Batch Normalization

论文原文链接:https://arxiv.org/abs/1502.03167 Abstract 深度神经网络训练过程中前面层参数的变化会导致每一层输入分布发生改变,这使得网络训练变得复杂。这个问题还使得网络需要以较低的学习率和仔细的参数初始化,从而降低了训练速度,同时当采用饱和非线性激活函数时网络训练变得异常复杂。我们将这种现象叫做internal convariate shift,并且通过标准
相关文章
相关标签/搜索