L1 loss 与 MSE

---恢复内容开始---函数

今天在训练时遇到的问题blog

把损失函数由 MSE 改为 L1 Loss 的时候 Loss 有了明显的降低ast

之前一直以为 MSE 相对来讲会更好 ,由于求导的话有标签与结果的差值做为系数,相差越大梯度越大。 L1 Loss 梯度都是同样的。im

查了一下,看到了另外一种说法:img

当预测值与目标值相差很大时, 梯度容易爆炸, 由于梯度里包含了x−t. 因此rgb在Fast RCNN里提出了SmoothL1Loss.di

 

当差值太大时, 原先L2梯度里的x−t被替换成了±1, 这样就避免了梯度爆炸, 也就是它更加健壮.标签


这。。。。应该就是缘由吧

---恢复内容结束---co

相关文章
相关标签/搜索