正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化能够在学习过程当中下降模型复杂度和不稳定程度,从而避免过拟合的危险。函数
范数是衡量某个向量空间(或矩阵)中的每一个向量以长度或大小。范数的通常化定义:对实数p>=1, 范数定义以下:学习
若是随机变量的几率密度函数分布为:测试
那么它就是拉普拉斯分布。其中,μ 是数学指望,b > 0 是振幅。若是 μ = 0,那么,正半部分刚好是尺度为 1/2 的指数分布。优化
又叫正态分布,若随机变量X服从一个数学指望为μ、标准方差为σ2的高斯分布,记为:X∼N(μ,σ2),其几率密度函数为:spa
其几率密度函数为正态分布的指望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。3d
还有涉及极大似然估计、几率论相关的先验和后验相关几率, 为了控制篇幅, 本文就不详细介绍, wiki百科和百度百科都讲得很清楚。orm
正则化经过下降模型的复杂性, 达到避免过拟合的问题。 正则化是如何解决过拟合的问题的呢?从网上找了不少相关文章, 下面列举两个主流的解释方式。blog
缘由1:来自知乎上一种比较直观和简单的理解, 模型过于复杂是由于模型尝试去兼顾各个测试数据点, 致使模型函数以下图,处于一种动荡的状态, 每一个点的到时在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)很是大,因为自变量值可大可小,因此只有系数足够大,才能保证导数值很大。ci
而加入正则能抑制系数过大的问题。以下公式, 是岭回归的计算公式。数学
若是发生过拟合, 参数θ通常是比较大的值, 加入惩罚项后, 只要控制λ的大小,当λ很大时,θ1到θn就会很小,即达到了约束数量庞大的特征的目的。
缘由二:从贝叶斯的角度来分析, 正则化是为模型参数估计增长一个先验知识,先验知识会引导损失函数最小值过程朝着约束方向迭代。 L1正则是拉普拉斯先验,L2是高斯先验。整个最优化问题能够看作是一个最大后验估计,其中正则化项对应后验估计中的先验信息,损失函数对应后验估计中的似然函数,二者的乘积即对应贝叶斯最大后验估计。
给定训练数据, 贝叶斯方法经过最大化后验几率估计参数θ:
说明:P(θ)是参数向量θ的先验几率。
下面咱们从最大后验估计(MAP)的方式, 推导下加入L1和L2惩罚项的Lasso和岭回归的公式。
首先咱们看下最小二乘公式的推导(公式推导截图来自知乎大神)
这个是经过最大似然估计的方法, 推导出线性回归最小二乘计算公式。
假设1: w参数向量服从高斯分布
如下为贝叶斯最大后验估计推导:
假设2: w参数服从拉普拉斯分布
如下为贝叶斯最大后验估计推导:
为了帮助理解,咱们来看一个直观的例子:假定x仅有两个属性,因而不管岭回归仍是Lasso接触的w都只有两个份量,即w1,w2,咱们将其做为两个坐标轴,而后在图中绘制出两个式子的第一项的”等值线”,即在(w1,w2)空间中平方偏差项取值相同的点的连线。再分别绘制出L1范数和L2范数的等值线,即在(w1,w2)空间中L1范数取值相同的点的连线,以及L2范数取值相同的点的连线(以下图所示)。
岭回归与Lasso的解都要在平方偏差项与正则化项之间折中,即出如今图中平方偏差项等值线与正则化项等值线相交处。而由上图能够看出,采用L1范数时平方偏差项等值线与正则化项等值线的交点常出如今坐标轴上,即w1或w2为0,而在采用L2范数时,二者的交点常出如今某个象限中,即w1或w2均非0。
这说明了岭回归的一个明显缺点:模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0,但永不达到 0。也就是说,最终的模型会包含全部的预测因子。可是,在 Lasso 中,若是将调整因子 λ 调整得足够大,L1 范数惩罚能够迫使一些系数估计值彻底等于 0。所以,Lasso 能够进行变量选择,产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零份量的特征才会出如今最终模型中,因而求解L1范数正则化的结果时获得了仅采用一部分初始特征的模型;换言之,基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。