神经网络训练的一些建议（Batch Normalization）

时间 2020-12-30

原文原文链接

数据的归一化先放上宏毅大神的图，说明一下我们为什么要做数据的归一化说明：x2的变化比较大，使用w2方向上就显得比较陡峭（梯度），学习率就不能设置得过大。 Batch Normalization 为什么要有batch normalization 主要是避免internal covariate shift，如图所示，输出上下波动太大（如同第二个人）的话会影响整个模型的训练，第二个人告诉第二个人话筒