Batch Normalization & Weight Initialization.

Batch Normalization 因为在深度神经网络中随着训练得进行,每一个隐层的参数不断的发生变化导致每一层的激活函数的输入发生改变,这与机器学习领域的假设:训练数据和测试数据的同分布是不符合的。所以会造成以下的问题: (如果不scaling) 激活输入值分布的偏移,导致数据向线性函数的取值区间的上下线两端靠近,导致梯度消失/爆炸的问题,这就是问什么会训练速度降低的原因。(可以采用小的le
相关文章
相关标签/搜索