贝叶斯线性回归(单输出)

本文主要依据Pattern Recognition and Machine Learing第三章的内容展开。

1线性模型

假设有一个 D 维的输入 x ,和一个连续的目标输出 t ,我们可以利用一组固定的基函数 ϕi(x),i=0,,M 的线性组合(组合系数为 w0,,wM ),得到一个线性回归模型:

t=i=0Mwiϕi(x)

其中, ϕ0(x)=1 , w0 为偏置项,则上式可以简记为:
t=y(x,w)=i=0Mwiϕi(x)=wϕ(x)

其中 w=(w0,,wM) ϕ=(ϕ0,,ϕM)

当有 N D 维的输入 X=(x1,,xN) 和对应的目标输出 t=(t1,,tN) 时,同理。

由此可见,虽然模型叫做贝叶斯线性回归模型,但它的线性是体现在参数 w 上。而这个模型的线性与否实际上取决于 ϕ(x) ,我们将其称为基函数。下面简要介绍线性基函数、多项式基函数和高斯基函数。

1.1线性基函数

在所有基函数中,最为简单的便是线性基函数,它是令:

y(x,w)=w0+w1x1++wDxD
其中
x=(x1,,xD)

1.2多项式基函数

在多项式基函数中,最简单的基函数是单变量 x 的一元多项式按照幂次大小进行组合,此时:

y(x,w)=w0+w1x1++wMxM

当输入变量为多维时,基函数会变得较为复杂,例如当 x=(x1,x2) 时:
y(x,w)=w0+w11x1+w12x2+w21x21+w22x1x2+w23x22++wM1xM1+

因此,通常情况下,我们使用多项式作为基函数时,会假定其输入变量 x 的维度 D 和基函数个数 M 均较小;或者 x 内各个特征 xi 之间相互独立,则上式中所有变量交叉项全为0,只存在 xji,i{1,,D},j{1,,M} 的项。

1.3高斯基函数

高斯基函数又称径向基函数RBF,形如:

ϕi(x)=exp(12(xμi)Σ1(xμi))

其中, μi ϕi(x) 的高斯分布中心, Σ x 的变量间协方差矩阵。
除了上述基函数,较常用的还有Sigmoid基函数:
ϕj(x)=σ(xμjs)

其中
σ(a)=11+exp(a)

等价的我们还可以用 tanh 函数,因为 tanh(a)=2σ(a)1 ,所以 sigmoid 函数的线性组合与 tanh 函数的线性组合是等价的。

1.4 基函数图像

在上述几种基函数中,线性基函数和多项式基函数是全局基函数,他们对所有 X 均能产生影响,而高斯基函数和Sigmoid基函数等,只会对部分特定范围内的 X 产生影响。多项式基函数、高斯基函数和Sigmoid基函数的图像如下所示:
基函数图像

2极大似然法求解

在实际的回归模型中,我们获得的数据一般都叠加有噪音 ϵ ,此时的回归模型可以表示为:

t=y(x,w)+ϵ

其中 p(ϵ|β)=N(ϵ|0,β1) ,则似然函数为:
p(t|x,w,β)=N(t|y(x,w),β1)

假设有一组独立同分布的数据 X=(x1,,xN) 及其对应目标输出 t=(t1,,tN)T 。则此时的似然函数为:
p(t|X,w,β)=n=1NN(tn|wϕ(xn),β1)

只考虑参数项,则对数似然为:
lnp(t|w,β)=n=1NlnN(tn|wϕ(xn),β1)=N2lnβN2ln(2π)βED(w)

其中 ED(w) 是平方和误差:
ED(w)=12n=1N[tnwϕ(xn)]2

如果只对 w 优化,则最大似然就相当于最小二乘。

令对数似然函数对 w 的梯度为0,得到:

lnp(t|w,β)=βn=1N[tnwϕ(xn)]ϕ(xn)=0

即:
=1N [tnwϕ(xn)] ϕ ( xn ) = 0

即:
n=1Ntnϕ(xnϕ(xn)]ϕ(xn)=0

即:
n=1Ntnϕ(xn)wn)⊤</
相关文章
相关标签/搜索