当卷积层后跟batch normalization层时为什么不要偏置b

时间 2021-01-21

原文原文链接

起因之前使用的是inception-v2模型，在v2中，标准的卷积模块为： * conv_w_b->bn->relu ->pooling* 即，在v2中，尽管在卷积之后、激活函数之前大量使用batch normalization，但是卷积层依然使用可学习的偏置参数。这也比较符合我的直观理解，因为偏置在一般的卷积神经网络中本来就是很重要的，可以让超判决面不过原点。但是我在读inception-