weight decay就是在原有loss后面,再加一个关于权重的正则化,相似与L2 正则,让权重变得稀疏;
算法
参考:https://www.zhihu.com/question/24529483学习
dying relu是当梯度值过大时,权重更新后为负数,经relu后变为0,致使后面也再也不更新。优化
三种办法:leak-relu、下降学习率、用 momentum based 优化算法,动态调整学习率spa
参考:https://www.zhihu.com/question/67151971.net
在训练模型时,有时候须要对新加入的数据进行finetune,但可能finetune不动了,这就有多是kernel为0了(weight decay和 dying relu形成的)。blog
解决的办法是,训练的时候固定scale。io
参考:https://zhuanlan.zhihu.com/p/61587832class
另参考sed
为何bn后不加bias:数据
https://blog.csdn.net/u010698086/article/details/78046671
https://blog.csdn.net/hjxu2016/article/details/81813535
https://blog.csdn.net/elysion122/article/details/79628587