关于几个normalization个人理解

比较经典的几个normalization: 盗图: 1、BN 对 (H×W×N) 进行归一化 实现原理很简单,就是对一个minibatch 计算一下均值和标准差,然后进行一个标准化操作,最后通过添加两个(可学习)scale和shift参数来防止其太过于线性而降低网络的表达能力。 网上都在说BN将输入强行拉回到正态分布看得我一脸懵,我觉得应该强调的是这个normalize使整个minibatch回到
相关文章
相关标签/搜索