贝叶斯方法与Ridge回归的联系

时间 2020-12-03

标签函数 post 优化 spa class 变量 lambda 方法栏目 HTTP/TCP 繁體版

原文原文链接

贝叶斯方法与Ridge回归有什么联系？废话少说，咱们直接来看。函数

为了方便说明问题，考虑一维的自变量，将一系列自变量排成向量的形式：\(\mathbf{x}=(x_1,\cdots,x_N)^T\)，对应的目标函数为\(\mathbf{t}=(t_1,\cdots,t_N)^T\)。post

咱们假设样本中每一个\(t\)都独立，且服从正态分布，分布的均值为\(y(x,\mathbf{w})=\sum_{j=0}^{M} w_j x^j\)（也能够不指定形式，只要是关于\(x\)和\(\mathbf{w}\)的函数便可），方差的倒数为\(\beta\)，则似然函数为优化

\[p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N} \mathcal{N}(t_n|y(x,\mathbf{w}),\beta^{-1}) \]

将似然函数取对数，再把正态分布的具体形式写出来，有spa

\[\ln{p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)}=-\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{N}{2}\ln{\beta}-\dfrac{N}{2}\ln(2\pi) \]

最大化似然函数，等价于最小化它的负对数，也等价于最小化\(\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2\)。咱们发现，其实这就是用OLS解线性回归问题。换句话说，用OLS解线性回归，至关于在正态分布假设下，求解最大似然问题。io

那么在贝叶斯方法下，又会有什么事情发生呢？因为贝叶斯方法须要一个参数的先验分布，在这里就假设参数\(\mathbf{w}\)的先验分布是一个由超参数\(\alpha\)控制的简单的正态分布，注意这里是多维的正态分布：class

\[\begin{aligned} p(\mathbf{w}|\alpha)&=\mathcal{N}(\mathbf{w}| \mathbf{0},\alpha^{-1}\mathbf{I})\\ &=(\dfrac{\alpha}{2\pi})^{\dfrac{M+1}{2}}\exp(-\dfrac{\alpha}{2}\mathbf{w}^T \mathbf{w}) \end{aligned} \]

其中\(M+1\)是\(\mathbf{w}\)的元素的总数。变量

根据贝叶斯定理，有lambda

\[p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha) \]

咱们要最大化的就是\(\mathbf{w}\)的后验几率，这样的方法就是MAP（maximum posterior）。方法

对上式右边取负对数，并舍去与\(\mathbf{w}\)无关的项后，变为：im

\[\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{\alpha}{2}\mathbf{w}^T\mathbf{w} \]

咱们发现，在本来的数据服从正态分布的假设中，再加入关于参数的零均值、同方差且无相关的多维正态分布的假设后，贝叶斯方法要最优化的东西，就是Ridge回归中要最优化的东西，取正则化参数\(\lambda=\dfrac{\alpha}{\beta}\)，两者的结果是一致的。