损失函数 l1, l2, smooth l1

为什么选择smooth l1? 当loss处于[-1,1]之间时,梯度下降同 l2,比较缓慢,不至于在最优值左右来回震荡; 当loss处于[−∞,-1],[1,+∞],梯度下降同 l1,避免了 l2的梯度爆炸情况;同时,对于噪声也没有l2敏感,增强了抗噪性。
相关文章
相关标签/搜索