机器学习理论笔记(3)

统计决策理论

squared error loss L 2

Let X R p , Y R
Joint distribution,联合分布: P r ( X , Y )
我们希望找到一个函数 f ( X ) ,对于给定的 X 来预测 Y 。首先我们需要一个loss function 损失函数 L ( Y , f ( X ) ) 来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:

(3.1) L ( Y , f ( X ) ) = ( Y f ( X ) ) 2

标准型:
(3) E P E ( f ) = E ( Y f ( X ) ) 2 (4) = [ y f ( x ) ] 2 P r ( d x , d y )

X 条件下的条件预测误差:
(3.2) E P E ( f ) = E X E Y | X ( [ Y f ( X ) ] 2 | X )

这里期望表示积分,先固定 x y 进行积分,然后再对 x 进行积分。
我们逐点最小化 E P E ,就可以得到:
(3.3) f ( x ) = a r g m i n c E Y | X ( [ Y c ] 2 | X = x )

它的解是:
(3.4) f ( x ) = E ( Y | X = x )

所以这里在条件 X = x 的均值可以最好的预测 Y 。最好的度量是平均平方误差。

可以认为期望就是一些取样点的平均,那么就有最近邻方法

(3.5) f ^ ( x ) = A v e ( y i | x i N k ( x ) )

现在再看线性回归拟合 线性回归拟合,显然它是 f ( x ) 的一个线性近似
(3.6) f ( x ) x T β

把此式子代入 E P E 就可以得到
(3.7) β = [ E ( X X T ) ] 1 E ( X Y )

最后我们是用数据的训练集来代入计算的。
我们可以得出结论:

  • 最小二乘法是假设函数 f ( X ) 近似于线性函数
  • k -最近邻方法是假设函数 f ( x ) 近似于一个局部常值函
    现在我们假设:

    (3.8) f ( X ) = j = 1 p f j ( X j )

    任意的 f j 的选择可以包含以上两种方法。

    绝对损失函数 L 1

    损失函数 L 1 = E | Y f ( X ) | ,那么条件中值median

    (3.9) f ^ ( x ) = m e d i a n ( Y | X = x )

0-1损失函数 L

假设output G 是一个分类变量categorical variable, G ^ G 中的一个估计值(一组可能的类),损失函数可以表示成一个 K × K 矩阵 L ,这里 K = c a r d ( G ) G 中类的个数。 L 是一个对角线为0,其他位置非负的矩阵, L ( k , l ) 表示 G l 类观测分类到 G k 类所需的代价。(也就是说这种分类错误会导致损失函数增加多少。)这里可以把 G 看成前面的 Y G ^ ( X ) 可以看成前面的 f ( X ) g 相当于前面的 c 。那么,0-1损失函数的预测误差期望是:

(3.10) E P E = E [ L ( G , G ^ ( X ) ) ]

写成添加联合分布的条件概率形式就是:
(3.11) E P E = E X k = 1 K L [ G k , G ^ ( X ) ] P r ( G k | X )

逐点极小化 E P E 就是
(3.12) G ^ ( x ) = a r g m i n g G k = 1 K L ( G k , g ) P r ( G k | X = x )

用0-1损失函数这个简化这个模型,也就是说 g 等于某个 G k 0 ,那么 L ( G k 0 , g ) = 0 ,对剩下的部分求和就得到下式:
(3.13) G ^ ( x ) = a r g m i n g G [ 1 P r ( G k | X = x ) ]

简单写就是
(3.14) G ^ ( x ) = G k  if  P r ( G k | X = x ) = max g G P r ( g | X = x )

这就是 贝叶斯分类器Bayes classifier
这里写图片描述