深度学习中的BN_CBN_CmBN

BN: 反向传播时经过该层的梯度是要乘以该层的参数的,即前向有: 反向传播时便有: 那么考虑从l层传到k层的情况,有: 其中这个 便是问题所在。如果Wi小于1,就会发生提督弥散 而如果Wi大于1,那么传到这里的时候又会有梯度爆炸问题 BN所做的就是解决这个梯度传播的问题,因为BN作用抹去了w的scale影响。 BN为了保证非线性的获得,对变换后的满足均值为0方差为1的x又进行了scale加上shi
相关文章
相关标签/搜索