统计决策理论
squared error loss
L2
Let
X∈Rp,Y∈R
Joint distribution,联合分布:
Pr(X,Y)
我们希望找到一个函数
f(X)
,对于给定的
X
来预测
Y
。首先我们需要一个loss function 损失函数
L(Y,f(X))
来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:
L(Y,f(X))=(Y−f(X))2(3.1)
标准型:
EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)(3)(4)
在
X
条件下的条件预测误差:
EPE(f)=EXEY|X([Y−f(X)]2|X)(3.2)
这里期望表示积分,先固定
x
对
y
进行积分,然后再对
x
进行积分。
我们逐点最小化
EPE
,就可以得到:
f(x)=argmincEY|X([Y−c]2|X=x)(3.3)
它的解是:
f(x)=E(Y|X=x)(3.4)
所以这里在条件
X=x
的均值可以最好的预测
Y
。最好的度量是平均平方误差。
可以认为期望就是一些取样点的平均,那么就有最近邻方法:
f^(x)=Ave(yi|xi∈Nk(x))(3.5)
现在再看线性回归拟合
线性回归拟合,显然它是
f(x)
的一个线性近似
f(x)≈xTβ(3.6)
把此式子代入
EPE
就可以得到
β=[E(XXT)]−1E(XY)(3.7)
最后我们是用数据的训练集来代入计算的。
我们可以得出结论:
- 最小二乘法是假设函数
f(X)
近似于线性函数
k
-最近邻方法是假设函数
f(x)
近似于一个局部常值函
现在我们假设:
f(X)=∑j=1pfj(Xj)(3.8)
任意的
fj
的选择可以包含以上两种方法。 绝对损失函数
L1
损失函数
L1=E|Y−f(X)|
,那么条件中值median
f^(x)=median(Y|X=x)(3.9)
0-1损失函数
L
假设output
G
是一个分类变量categorical variable,
G^
是
G
中的一个估计值(一组可能的类),损失函数可以表示成一个
K×K
矩阵
L
,这里
K=card(G)
,
G
中类的个数。
L
是一个对角线为0,其他位置非负的矩阵,
L(k,l)
表示
Gl
类观测分类到
Gk
类所需的代价。(也就是说这种分类错误会导致损失函数增加多少。)这里可以把
G
看成前面的
Y
,
G^(X)
可以看成前面的
f(X)
,
g
相当于前面的
c
。那么,0-1损失函数的预测误差期望是:
EPE=E[L(G,G^(X))](3.10)
写成添加联合分布的条件概率形式就是:
EPE=EX∑k=1KL[Gk,G^(X)]Pr(Gk|X)(3.11)
逐点极小化
EPE
就是
G^(x)=argming∈G∑k=1KL(Gk,g)Pr(Gk|X=x)(3.12)
用0-1损失函数这个简化这个模型,也就是说
g
等于某个
Gk0
,那么
L(Gk0,g)=0
,对剩下的部分求和就得到下式:
G^(x)=argming∈G[1−Pr(Gk|X=x)](3.13)
简单写就是
G^(x)=Gk if Pr(Gk|X=x)=maxg∈GPr(g|X=x)(3.14)
这就是
贝叶斯分类器Bayes classifier。