Laplace(拉普拉斯)先验与L1正则化

Laplace(拉普拉斯)先验与L1正则化

在以前的一篇博客中L1正则化及其推导推导证实了L1正则化是如何使参数稀疏化人,而且提到过L1正则化若是从贝叶斯的观点看来是Laplace先验,事实上若是从贝叶斯的观点,全部的正则化都是来自于对参数分布的先验。如今来看一下为何Laplace先验会导出L1正则化,也顺便证实Gauss(高斯)先验会导出L2正则化。html

最大似然估计

不少人对最大似然估计不明白,用最简单的线性回归的例子来讲:若是有数据集\((X, Y)\),而且\(Y\)是有白噪声(就是与测量获得的\(Y\)与真实的\(Y_{real}\)有均值为零的高斯分布偏差),目的是用新产生的\(X\)来获得\(Y\)。若是用线性模型来测量,那么有:机器学习

\[ f(X) = \sum_i(x_i\theta_i) + \epsilon = X\theta^T + \epsilon \tag{1.1} \]函数

其中\(X=(x_1, x_2...x_n)\)\(\epsilon\)是白噪声,即\(\epsilon \sim N(0, \delta^2)\)。那么于一对数据集\((X_i, Y_i)\)来用,在这个模型中用\(X_i\)获得\(Y_i\)的几率是\(Y_i \sim N(f(X_i), \delta^2)\)性能

\[ P(Y_i|X_i, \theta) = \frac{1}{\delta\sqrt{2\pi}} \exp(-\frac{\|f(X_i) - Y_i\|^2}{2\delta^2}) \tag{1.2} \]学习

假设数据集中每一对数据都是独立的,那么对于数据集来讲由\(X\)获得\(Y\)的几率是:spa

\[ P(Y|X,\theta)= \prod_i\frac{1}{\delta\sqrt{2\pi}} \exp(-\frac{\|f(X_i) - Y_i\|^2}{2\delta^2}) \tag{1.3} \]htm

根据决策论,就能够知道可使几率\(P(Y|X,\theta)\)最大的参数\(\theta^*\)就是最好的参数。那么咱们能够直接获得最大似然估计的最直观理解:对于一个模型,调整参数\(\theta\),使得用X获得Y的几率最大。那么参数\(\theta\)就能够由下式获得:blog

\[ \begin {split} \theta^* &= argmax_{\theta} \left(\prod_i\frac{1}{\epsilon\sqrt{2\pi}} \exp(-\frac{\|f(X_i) - Y_i\|^2}{2\delta^2})\right) \cr &=argmax_{\theta} \left( -\frac{1}{2\delta^2} \sum_i \|f(X_i) - Y_i\|^2 + \sum_i ln(\delta\sqrt{2\pi}) \right) \cr &=argmin_{\theta} \left(\sum_i \|f(X_i) - Y_i\|^2 \right) \end {split} \tag{1.4} \]get

这个就是最小二乘计算公式。博客

Laplace分布

Laplace几率密度函数分布为:

\[ f(x|\mu, b) = \frac{1}{2b} \exp(-\frac{|x-\mu|}{b}) \tag{2.1} \]

分布的图像以下所示:

图1 Laplace分布

能够看到Laplace分布集中在\(\mu\)附近,并且\(b\)越小,数据的分布就越集中。

Laplace先验导出L1正则化

先验的意思是对一种未知的东西的假设,好比说咱们看到一个正方体的骰子,那么咱们会假设他的各个面朝上的几率都是\(1/6\),这个就是先验。但事实上骰子的材质多是密度不均的,因此还要从数据集中学习到更接近现实状况的几率。一样,在机器学习中,咱们会根据一些已知的知识对参数的分布进行必定的假设,这个就是先验。有先验的好处就是能够在较小的数据集中有良好的泛化性能,固然这是在先验分布是接近真实分布的状况下获得的了,从信息论的角度看,向系统加入了正确先验这个信息,确定会提升系统的性能。咱们假设参数\(\theta\)是以下的Laplace分布的,这就是Laplace先验:

\[ P(\theta_i) = \frac{\lambda}{2} \exp(-\lambda|\theta_i|) \tag{3.1} \]

其中\(\lambda\)是控制参数\(\theta\)集中状况的超参数,\(\lambda\)越大那么参数的分布就越集中在0附近。

在前面所说的最大似然估计事实上是假设了\(\theta\)是均匀分布的,也就是\(P(\theta)=Constant\),咱们最大化的要后验估计,便是:

\[ \begin {split} \theta^* &= argmax_{\theta} \left(\prod_i P(Y_i|X_i, \theta) \prod_i P(\theta_i)\right) \cr &=argmin_{\theta} \left(\sum_i \|f(X_i) - Y_i\|^2 + \sum_i \ln(P(\theta_i))\right) \end {split} \tag{3.2} \]

若是是Laplace先验,将式\((3.1)\)代入到式\((3.2)\)中可得:

\[ \theta^* =argmin_{\theta} \left(\sum_i \|f(X_i) - Y_i\|^2 + \lambda \sum_i |\theta_i|)\right) \tag{3.3} \]

这就是由Laplace导出L1正则化,我在以前的一篇博客中L1正则化及其推导分析过\(\lambda\)越大,那么参数的分布就越集中在0附近,这个与Laplace先验的分析是一致的。

Gauss先验导出L2正则化

到这里,咱们能够很轻易地导出L2正则化,假设参数\(\theta\)的分布是符合如下的高斯分布:

\[ P(\theta_i) = \frac{\lambda}{\sqrt{\pi}} \exp(-\lambda\|\theta_i\|^2) \tag{3.4} \]

代入式\((3.2)\)能够直接获得L2正则化:

\[ \theta^* =argmin_{\theta} \left(\sum_i \|f(X_i) - Y_i\|^2 + \lambda \sum_i \|\theta_i\|^2)\right) \tag{3.5} \]

【防止爬虫转载而致使的格式问题——连接】:
http://www.cnblogs.com/heguanyou/p/7688344.html

相关文章
相关标签/搜索