当卷积层后跟batch normalization层时为什么不要偏置b

起因 之前使用的是inception-v2模型,在v2中,标准的卷积模块为: * conv_w_b->bn->relu ->pooling* 即,在v2中,尽管在卷积之后、激活函数之前大量使用batch normalization,但是卷积层依然使用可学习的偏置参数。 这也比较符合我的直观理解,因为偏置在一般的卷积神经网络中本来就是很重要的,可以让超判决面不过原点。 但是我在读inception-
相关文章
相关标签/搜索