L1范数损失函数,也被称之为最小绝对值偏差。总的来讲,它把目标值$Y_i$与估计值$f(x_i)$的绝对差值的总和最小化。html
$$S=\sum_{i=1}^n|Y_i-f(x_i)|$$机器学习
L2范数损失函数,也被称为最小平方偏差,总的来讲,它把目标值$Y_i$与估计值$f(x_i)$的差值的平方和最小化。函数
$$S=\sum_{i=1}^n(Y_i-f(x_i))^2$$post
L1损失函数 | L2损失函数 |
鲁棒 | 不是很鲁棒 |
不稳定性 | 稳定解 |
可能多个解 | 老是一个解 |
总结一下:L2范数loss将偏差平均化(若是偏差大于1,则偏差会放大不少),模型的偏差会比L1范数来得大,所以模型会对样本更加敏感,这就须要调整模型来最小化偏差。若是有个样本是一个异常值,模型就须要调整以适应单个的异常值,这会牺牲许多其余正常的样本,由于这些正常的样本的偏差比这单个的异常值的偏差小。学习
咱们常常会看见损失函数后面添加一个额外项,通常为L1-norm,L2-norm,中文称做L1正则化和L2正则化,或者L1范数和L2函数。测试
L1正则化和L2正则化能够看作是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数作一些限制。防止模型过拟合而加在损失函数后面的一项。spa
L1范数符合拉普拉斯分布,是不彻底可微的。表如今图像上会有不少角出现。这些角和目标函数的接触机会远大于其余部分。就会形成最优值出如今坐标轴上,所以就会致使某一维的权重为0 ,产生稀疏权重矩阵,进而防止过拟合。.net
最小平方损失函数的L1正则化:orm
L1正则化是指权值向量$w$中各个元素的绝对值之和htm
L2范数符合高斯分布,是彻底可微的。和L1相比,图像上的棱角被圆滑了不少。通常最优值不会在坐标轴上出现。在最小化正则项时,能够是参数不断趋向于0,最后活的很小的参数。
在机器学习中,正规化是防止过拟合的一种重要技巧。从数学上讲,它会增长一个正则项,防止系数拟合得过好以致于过拟合。L1与L2的区别只在于,L2是权重的平方和,而L1就是权重的和。以下:
最小平方损失函数的L2正则化:
L2正则化是指权值向量$w$中各个元素的平方和而后再求平方根
L1正则化
L2正则化:
稀疏模型和特征选择:稀疏性我在这篇文章有详细讲解,若是特征符合稀疏性,说明特征矩阵不少元素为0,只有少数元素是非零的矩阵,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(由于它们前面的系数是0或者是很小的值,即便去掉对模型也没有什么影响),此时咱们就能够只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。
文献[1]解释了为何L1正则化能够产生稀疏模型(L1是怎么样系数等于0的),以及为何L2正则化能够防止过拟合,因为涉及到不少公式,想要详细了解的同窗,请移步。
一、L1正则化是模型各个参数的绝对值之和。
L2正则化是模型各个参数的平方和的开方值。
二、L1会趋向于产生少许的特征,而其余的特征都是0,产生稀疏权重矩阵。
L2会选择更多的特征,这些特征都会接近于0。
1.为何参数越小表明模型越简单?
越是复杂的模型,越是尝试对全部样本进行拟合,包括异常点。这就会形成在较小的区间中产生较大的波动,这个较大的波动也会反映在这个区间的导数比较大。
只有越大的参数才可能产生较大的导数。所以参数越小,模型就越简单。
2.实现参数的稀疏有什么好处?
由于参数的稀疏,在必定程度上实现了特征的选择。通常而言,大部分特征对模型是没有贡献的。这些没有用的特征虽然能够减小训练集上的偏差,可是对测试集的样本,反而会产生干扰。稀疏参数的引入,能够将那些无用的特征的权重置为0.
3.L1范数和L2范数为何能够避免过拟合?
加入正则化项就是在原来目标函数的基础上加入了约束。当目标函数的等高线和L1,L2范数函数第一次相交时,获得最优解。
CSDN博客:机器学习中正则化项L1和L2的直观理解
Differences between L1 and L2 as Loss Function and Regularization