本文主要依据Pattern Recognition and Machine Learing第三章的内容展开。
1线性模型
假设有一个
D
维的输入
x
,和一个连续的目标输出
t
,我们可以利用一组固定的基函数
ϕi(x),i=0,…,M
的线性组合(组合系数为
w0,…,wM
),得到一个线性回归模型:
t=∑i=0Mwiϕi(x)
其中,
ϕ0(x)=1
,
w0
为偏置项,则上式可以简记为:
t=y(x,w)=∑i=0Mwiϕi(x)=w⊤ϕ(x)
其中
w=(w0,…,wM)⊤
,
ϕ=(ϕ0,…,ϕM)⊤
。
当有
N
个
D
维的输入
X=(x1,…,xN)⊤
和对应的目标输出
t=(t1,…,tN)⊤
时,同理。
由此可见,虽然模型叫做贝叶斯线性回归模型,但它的线性是体现在参数
w
上。而这个模型的线性与否实际上取决于
ϕ(x)
,我们将其称为基函数。下面简要介绍线性基函数、多项式基函数和高斯基函数。
1.1线性基函数
在所有基函数中,最为简单的便是线性基函数,它是令:
y(x,w)=w0+w1x1+⋯+wDxD
其中
x=(x1,…,xD)⊤
1.2多项式基函数
在多项式基函数中,最简单的基函数是单变量
x
的一元多项式按照幂次大小进行组合,此时:
y(x,w)=w0+w1x1+⋯+wMxM
当输入变量为多维时,基函数会变得较为复杂,例如当
x=(x1,x2)
时:
y(x,w)=w0+w11x1+w12x2+w21x21+w22x1x2+w23x22+⋯+wM1xM1+⋯
因此,通常情况下,我们使用多项式作为基函数时,会假定其输入变量
x
的维度
D
和基函数个数
M
均较小;或者
x
内各个特征
xi
之间相互独立,则上式中所有变量交叉项全为0,只存在
xji,i∈{1,…,D},j∈{1,…,M}
的项。
1.3高斯基函数
高斯基函数又称径向基函数RBF,形如:
ϕi(x)=exp(−12(x−μi)⊤Σ−1(x−μi))
其中,
μi
为
ϕi(x)
的高斯分布中心,
Σ
为
x
的变量间协方差矩阵。
除了上述基函数,较常用的还有Sigmoid基函数:
ϕj(x)=σ(x−μjs)
其中
σ(a)=11+exp(−a)
等价的我们还可以用 tanh 函数,因为
tanh(a)=2σ(a)−1
,所以 sigmoid 函数的线性组合与 tanh 函数的线性组合是等价的。
1.4 基函数图像
在上述几种基函数中,线性基函数和多项式基函数是全局基函数,他们对所有
X
均能产生影响,而高斯基函数和Sigmoid基函数等,只会对部分特定范围内的
X
产生影响。多项式基函数、高斯基函数和Sigmoid基函数的图像如下所示:

2极大似然法求解
在实际的回归模型中,我们获得的数据一般都叠加有噪音
ϵ
,此时的回归模型可以表示为:
t=y(x,w)+ϵ
其中
p(ϵ|β)=N(ϵ|0,β−1)
,则似然函数为:
p(t|x,w,β)=N(t|y(x,w),β−1)
假设有一组独立同分布的数据
X=(x1,…,xN)⊤
及其对应目标输出
t=(t1,…,tN)T
。则此时的似然函数为:
p(t|X,w,β)=∏n=1NN(tn|w⊤ϕ(xn),β−1)
只考虑参数项,则对数似然为:
lnp(t|w,β)=∑n=1NlnN(tn|w⊤ϕ(xn),β−1)=N2lnβ−N2ln(2π)−βED(w)
其中
ED(w)
是平方和误差:
ED(w)=12∑n=1N[tn−w⊤ϕ(xn)]2
如果只对
w
优化,则最大似然就相当于最小二乘。
令对数似然函数对
w
的梯度为0,得到:
▽lnp(t|w,β)=β∑n=1N[tn−w⊤ϕ(xn)]ϕ(xn)⊤=0
即:
=1N
[tn−w⊤ϕ(xn)]
ϕ
(
xn
)⊤
=
0
即:
∑n=1Ntnϕ(xn⊤ϕ(xn)]ϕ(xn)⊤=0
即:
∑n=1Ntnϕ(xn)⊤−w⊤n)⊤</