---恢复内容开始---函数
今天在训练时遇到的问题blog
把损失函数由 MSE 改为 L1 Loss 的时候 Loss 有了明显的降低ast
之前一直以为 MSE 相对来讲会更好 ,由于求导的话有标签与结果的差值做为系数,相差越大梯度越大。 L1 Loss 梯度都是同样的。im
查了一下,看到了另外一种说法:img
当预测值与目标值相差很大时, 梯度容易爆炸, 由于梯度里包含了x−t. 因此rgb在Fast RCNN里提出了SmoothL1Loss.di
当差值太大时, 原先L2梯度里的x−t被替换成了±1, 这样就避免了梯度爆炸, 也就是它更加健壮.标签
---恢复内容结束---co