L1正则化与嵌入式特征选择(稀疏性)

岭回归的历史可追溯到1943年由A.Tikhonov发表在《苏联科学院院刊》上的一篇文章,咱们知道计算机是在1946年发明出来的,因而可知,这是一个历史悠久的算法,至今依旧有生命力,属于经典算法之一。算法

岭回归,是线性回归的L2正则化方式。本质上是一种回归。函数

给定数据集D = {(x1,y1),(x2,y2),...,(xm,ym)},其中xϵR^d dimension,yϵR。咱们考虑最简单的线性回归模型,以平方偏差为损失函数:post

线性回归的损失函数

对于正则化不太了解的朋友能够看我这一篇文章《L1与L2正则化》,可是咱们这里对于正则化有一些更加深刻的理解。学习

正则化(Regularization)是在被优化的目标函数中,添加一项与常数因子λ相乘(有时候也使用α)的参数,这一项就叫作正则项。咱们很容易知道,因为目标函数老是向最小化方向发展,则被加进来的这一项会受到惩罚使之更倾向于小。具体的理解能够参考个人《L1与L2正则化》。如下是线性回归带正则化的目标函数表达式。优化

带L1正则化的线性回归的目标函数:spa

公式1

带L2正则化的线性回归的目标函数,也就是咱们提到的岭回归cdn

公式2

以上是正则化的感性认识以及其工做原理。咱们经常使用的正则化为L1和L2正则化,也称L1范数正则化与L2范数正则化。这两种正则化均可以用来下降过拟合的风险,可是L1正则化比L2正则化多一个优点在于,其能够更容易得到稀疏(sparse)解,即其会有更少的非零份量。blog

我举一个直观的例子。假设x仅仅有两个属性,因而根据线性回归的目标函数求解,w都以后有两个份量。即w1与w2,以此为坐标轴,画出一个坐标系。如图所示 get

L1范数与L2范数在w坐标轴中的表示

那么咱们取在这个(w1,w2)空间里平方偏差取值同样的点连成线,就成了咱们的平方偏差项等值线。再画出L1,L2范数的等值线,即在(w1,w2)空间中L1范数与L2范数取值相同的点的连线,如图所示。咱们知道,平方偏差等值线与正则化项等值线的交点为带正则化项的线性回归目标函数的解。咱们从图中能够看出,平方偏差等值线与L1正则化等值线的交点,在坐标轴的频率更高,即w1或w2为0;二平方偏差等值线与L2正则化等值线的交点更容易出如今象限中,即w1与w2均不为0。因而可知,采用L1范数正则化比L2范数更容易获得稀疏解。it

注意到w取得稀疏解则意味着初始的d个特征中仅有对应着w的非零份量的特征才会出如今最终模型中,因此求得的结果是获得了仅采用一部分初始特征的模型。咱们即可以将L1郑泽华的学习方法视为一种特征选择方法,删掉了部分特征(特征为0),特征选择过程与学习器训练过程融为一体,同时完成。

L1和L2正则的区别,如何选择L1和L2正则?

  1. L1在0处不可导,怎么处理他们都是能够防止过拟合,下降模型复杂度L1是在loss function后面加上模型参数的1范数(也就是|xi|)L0范数的最小化问题在实际应用中是NP难问题,没法实际应用
  2. L2是在loss function后面加上模型参数的2范数(也就是sigma(xi^2)),注意L2范数的定义是sqrt(sigma(xi^2)),在正则项上没有添加sqrt根号是为了更加容易优化L1 会产生稀疏的特征L2 会产生更多地特征可是都会接近于0
  3. L1会趋向于产生少许的特征,而其余的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。L1在特征选择时候很是有用,而L2就只是一种规则化而已。
  4. L1对应拉普拉斯分布,L2对应高斯分布,L1偏向于参数稀疏性,L1不可导可使用近似算法或者ADMM来解决
相关文章
相关标签/搜索