神经网络训练的一些建议(Batch Normalization)

数据的归一化 先放上宏毅大神的图,说明一下我们为什么要做数据的归一化 说明:x2的变化比较大,使用w2方向上就显得比较陡峭(梯度),学习率就不能设置得过大。 Batch Normalization 为什么要有batch normalization 主要是避免internal covariate shift,如图所示,输出上下波动太大(如同第二个人)的话会影响整个模型的训练,第二个人告诉第二个人话筒
相关文章
相关标签/搜索