机器学习理论笔记（3）

时间 2020-12-30

统计决策理论

squared error loss $L_{2}$

Let $X \in R^{p}, Y \in R$
Joint distribution，联合分布: $P r (X, Y)$
我们希望找到一个函数 $f (X)$ ，对于给定的 $X$ 来预测 $Y$ 。首先我们需要一个loss function 损失函数 $L (Y, f (X))$ 来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:

\begin{matrix} (3.1) & L (Y, f (X)) = (Y - f (X))^{2} \end{matrix}

标准型：

\begin{aligned} (3) & E P E (f) & = E (Y - f (X))^{2} \\ (4) & = \int [y - f (x)]^{2} P r (d x, d y) \end{aligned}

在

X

条件下的条件预测误差：

\begin{matrix} (3.2) & E P E (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X) \end{matrix}

这里期望表示积分，先固定

x

对

y

进行积分，然后再对

x

进行积分。
我们逐点最小化

E P E

，就可以得到：

\begin{matrix} (3.3) & f (x) = a r g m i n_{c} E_{Y | X} ([Y - c]^{2} | X = x) \end{matrix}

它的解是：

\begin{matrix} (3.4) & f (x) = E (Y | X = x) \end{matrix}

所以这里在条件

X = x

的均值可以最好的预测

Y

。最好的度量是平均平方误差。

可以认为期望就是一些取样点的平均，那么就有最近邻方法：

\begin{matrix} (3.5) & \hat{f} (x) = A v e (y_{i} | x_{i} \in N_{k} (x)) \end{matrix}

现在再看线性回归拟合线性回归拟合，显然它是

f (x)

的一个线性近似

\begin{matrix} (3.6) & f (x) \approx x^{T} β \end{matrix}

把此式子代入

E P E

就可以得到

\begin{matrix} (3.7) & β = [E (X X^{T})]^{- 1} E (X Y) \end{matrix}

最后我们是用数据的训练集来代入计算的。
我们可以得出结论：

最小二乘法是假设函数 $f (X)$ 近似于线性函数
$k$ -最近邻方法是假设函数 $f (x)$ 近似于一个局部常值函
现在我们假设：

$\begin{matrix} (3.8) & f (X) = \sum_{j = 1}^{p} f_{j} (X_{j}) \end{matrix}$
任意的 $f_{j}$ 的选择可以包含以上两种方法。

绝对损失函数 $L_{1}$

损失函数 $L_{1} = E | Y - f (X) |$ ，那么条件中值median

$\begin{matrix} (3.9) & \hat{f} (x) = m e d i a n (Y | X = x) \end{matrix}$

0-1损失函数 $L$

假设output $G$ 是一个分类变量categorical variable， $\hat{G}$ 是 $G$ 中的一个估计值（一组可能的类），损失函数可以表示成一个 $K \times K$ 矩阵 $L$ ，这里 $K = c a r d (G)$ ， $G$ 中类的个数。 $L$ 是一个对角线为0，其他位置非负的矩阵， $L (k, l)$ 表示 $G_{l}$ 类观测分类到 $G_{k}$ 类所需的代价。（也就是说这种分类错误会导致损失函数增加多少。）这里可以把 $G$ 看成前面的 $Y$ ， $\hat{G} (X)$ 可以看成前面的 $f (X)$ ， $g$ 相当于前面的 $c$ 。那么，0-1损失函数的预测误差期望是：

\begin{matrix} (3.10) & E P E = E [L (G, \hat{G} (X))] \end{matrix}

写成添加联合分布的条件概率形式就是：

\begin{matrix} (3.11) & E P E = E_{X} \sum_{k = 1}^{K} L [G_{k}, \hat{G} (X)] P r (G_{k} | X) \end{matrix}

逐点极小化

E P E

就是

\begin{matrix} (3.12) & \hat{G} (x) = a r g m i n_{g \in G} \sum_{k = 1}^{K} L (G_{k}, g) P r (G_{k} | X = x) \end{matrix}

用0-1损失函数这个简化这个模型，也就是说

g

等于某个

G_{k_{0}}

，那么

L (G_{k_{0}}, g) = 0

，对剩下的部分求和就得到下式：

\begin{matrix} (3.13) & \hat{G} (x) = a r g m i n_{g \in G} [1 - P r (G_{k} | X = x)] \end{matrix}

简单写就是

\begin{matrix} (3.14) & \hat{G} (x) = G_{k} if P r (G_{k} | X = x) = max_{g \in G} P r (g | X = x) \end{matrix}

这就是贝叶斯分类器Bayes classifier。

机器学习理论笔记（3）

统计决策理论

squared error loss L2 L 2

绝对损失函数 L1 L 1

0-1损失函数 L L

squared error loss $L_{2}$

绝对损失函数 $L_{1}$

0-1损失函数 $L$