贝叶斯方法与Ridge回归有什么联系?废话少说,咱们直接来看。函数
为了方便说明问题,考虑一维的自变量,将一系列自变量排成向量的形式:\(\mathbf{x}=(x_1,\cdots,x_N)^T\),对应的目标函数为\(\mathbf{t}=(t_1,\cdots,t_N)^T\)。post
咱们假设样本中每一个\(t\)都独立,且服从正态分布,分布的均值为\(y(x,\mathbf{w})=\sum_{j=0}^{M} w_j x^j\)(也能够不指定形式,只要是关于\(x\)和\(\mathbf{w}\)的函数便可),方差的倒数为\(\beta\),则似然函数为优化
将似然函数取对数,再把正态分布的具体形式写出来,有spa
最大化似然函数,等价于最小化它的负对数,也等价于最小化\(\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2\)。咱们发现,其实这就是用OLS解线性回归问题。换句话说,用OLS解线性回归,至关于在正态分布假设下,求解最大似然问题。io
那么在贝叶斯方法下,又会有什么事情发生呢?因为贝叶斯方法须要一个参数的先验分布,在这里就假设参数\(\mathbf{w}\)的先验分布是一个由超参数\(\alpha\)控制的简单的正态分布,注意这里是多维的正态分布:class
其中\(M+1\)是\(\mathbf{w}\)的元素的总数。变量
根据贝叶斯定理,有lambda
咱们要最大化的就是\(\mathbf{w}\)的后验几率,这样的方法就是MAP(maximum posterior)。方法
对上式右边取负对数,并舍去与\(\mathbf{w}\)无关的项后,变为:im
咱们发现,在本来的数据服从正态分布的假设中,再加入关于参数的零均值、同方差且无相关的多维正态分布的假设后,贝叶斯方法要最优化的东西,就是Ridge回归中要最优化的东西,取正则化参数\(\lambda=\dfrac{\alpha}{\beta}\),两者的结果是一致的。