Batch Normalization解读

1.为什么要用BN  在神经网络训练过程中,经常会出现梯度爆炸或者梯度消失的问题,导致网络训练困难,特别是在网络层数较多的情况下,网络层数多,网络更新一次,较后的层的输入数据的分布会发生较大变化,所以后面的层又要适应这种变化,相当于要求这些层能适应不同分布的输入,并总结出规律,这就导致网络训练很慢,而且不一定会收敛。如果保证每一层的输入的分布是稳定的,那么网络训练起来会收敛的更快,而且更不依赖于初
相关文章
相关标签/搜索