batch norm为什么会work:How Does Batch Normalizetion Help Optimization

BN的作用是显而易见的:加速收敛,降低对lr的敏感性。 BN的作者认为,BN层把输入数据,变成了独立同分布的状态,这是BN work的原因。MIT MIT的文章反驳了上述观点:how Does Batch Normalizetion Help Optimization 下面的实验每层都有BN,但是由于添加了噪声,层间分布已经不同了。在这种情况下能收敛,反驳了独立同分布是BN收敛的原因。 MIT的文
相关文章
相关标签/搜索