Batch Normalization 学习笔记

作者在文章中说应该把BN放在激活函数之前,这是因为Wx+b具有更加一致和非稀疏的分布。但是也有人做实验表明放在激活函数后面效果更好。这是实验链接,里面有很多有意思的对比实验:https://github.com/ducha-aiki/caffenet-benchmark http://blog.csdn.net/hjimce/article/details/50866313 Batch Norma
相关文章
相关标签/搜索