统计学习方法第二版第一章统计学及监督学习概论笔记

时间 2020-10-23

原文原文链接

1. 统计学习

1.1 统计学习的方法

基于数据构建几率统计模型从而对数据进行预测与分析。统计学习由监督学习、无监督学习、强化学习等组成

1.2 实现统计学习的方法的步骤

1）获得一个有限的训练数据集合
2）肯定包含全部可能的模型的假设空间，即学习模型的集合
3）肯定模型选择的准则，即学习的策略
4）实现求解最优模型的算法，即学习的算法
5）经过学习方法选择最优模型
6）利用学习的最优模型对新数据进行预测或分析算法

2. 统计学习的分类

2.1 基本分类

2.1.1 监督学习

2.1.1.1 定义：

1）指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律网络

2.1.1.2 特征向量：

1）\(x=\left ( x^{(1)}, x^{(2)},x^{(3)},x^{(4)}...x^{(n)}\right )^{T}\)机器学习

2.1.1.3 第i个变量：

1）\(x_{i}=\left ( x_{i}^{(1)}, x_{i}^{(2)},x_{i}^{(3)},x_{i}^{(4)}...x_{i}^{(n)}\right )^{T}\)函数

2.1.1.4 训练集：

1）\(T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right )...\left ( x_{N},y_{N} \right ) \right \}\)性能

2.1.1.5 联合几率分布：

1）监督学习假设输入与输出的随机变量X和Y遵循联合几率分布P(X, Y)，P(X, Y)表示分布函数，或分布密度函数。训练数据与测试数据被看做是依联合几率分布P(X, Y)独立同分布产生的。统计学习假设数据存在必定的统计规律，X和Y具备联合几率分布就是监督学习关于数据的基术假设学习

2.1.1.6 假设空间：

1）输入空间到输出空间的映射，模型能够表示为P(y|x)或y=f(x)测试

2.1.1.7 问题形式化：

1）
在预测过程当中，预测系统对于给定的输入\(x_{N+1}\)由模型\(y_{N+1} = \underset{y}{argmax}\hat{P}\left ( y|x_{N+1} \right )\)或\(y_{N+1} = \hat{f}\left ( x_{N+1} \right )\)给出相应的输出\(y_{N+1}\)优化

2.1.2 无监督学习

2.1.2.1 定义：

1）指从无标注数据中学习预测模型的机器学习问题。无标注数据是天然获得的数据，预测模型表示数据的类别、转换或几率。无监督学习的本质是学习数据中的统计规律或潜在结构。能够用于对已有的数据进行分析或者对将来的数据进行预测

每个输出是对输入的分析结果，由输入的类别、转换或几率表达，模型能够实现对数据的聚类、降维或几率估计spa

2.1.2.2 无监督学习的模型：

1）函数\(z=g_{\theta }(x)\)（硬聚类：一个样本只能属于一个类）、条件几率分布\(P_{\theta }(z|x)\)（软聚类：一个样本能够属于多个类）或条件几率分布\(P_{\theta }(x|z)\)（几率模型估计）orm

2.1.3 强化学习

2.1.3.1 定义：

1）指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Marlcov decision process)智能系统能观测到的是与环境互动获得的数据序列。强化学习的本质是学习最优的序贯决策。

2.1.3.2 智能系统与环境的互动：

1）
目标是长期累积的奖励最大化

2.1.3.3 马可夫决策过程：

1）

2.1.3.4 马可夫决策过程求解：

1）贝尔曼方程：
\(V_{*}\left ( s \right )= \underset{a}{\max}\underset{{s}',r}{\sum} p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{*}\left ( {s}' \right ) \right ]\)
贝尔曼方程中状态s的价值V(s)由两部分组成：
a.采起动做a后带来的奖励r
b.采起动做a后到达的新状态的价值V(s′)
2）策略迭代：
a.初始化：随机选择一个策略做为初始值。好比“无论什么状态，一概朝下走”，即P（ A = 朝下走 | St=s） = 1， P（ A = 其余 | St=s） = 0
b.进行策略评估：根据当前的策略计算 \(V_{\pi }\left ( s \right )= E_{\pi }\left ( r+\gamma V_{\pi }\left ( {s}' \right )|S_{t}=s \right )\)。
c.进行策略提高：计算当前状态的最优动做\(\underset{a}{\max}\left \{ q_{\pi }\left ( s,a \right ) \right \}\)，更新策略\(\pi _{s}= \underset{a}{argmax}\underset{{s}',r}{\sum}p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{\pi }\left ( {s}' \right ) \right ]\)
d.不停地重复策略评估和策略提高，直到策略再也不变化为止

2.1.4 半监督学习与主动学习

2.1.4.1 半监督学习：

1）指利用标注数据和未标注数据学习预测模型的机器学习问题

2.1.4.2 主动学习：

1）指机器不断主动给出实例让教师进行标注，而后利用标注数据学习预测模型的机器学习问题

2.2 模型分类

2.2.1 几率模型与非几率模型

2.2.1.1 几率模型：

1）监督学习中几率模型取条件几率分布形式P(y|x)且是生成模型,无监督学习中几率模型取几率分布形式P(z|x)或P(x|z)且是判别模型
2）决策树，朴素贝叶斯，隐马尔可夫模型，条件随机场，几率潜在语义分析，潜在狄利克雷分配，高斯混合模型，逻辑斯谛回归

2.2.1.2 非几率模型：

1）监督学习中非几率模型取函数形式y=f(x),无监督学习中非几率模型取函数形式z=g(x)
2）感知机，支持向量机，K近邻，AdaBoost，K均值，潜在语义分析，神经网络，逻辑斯谛回归

2.2.2 线性模型与非线性模型

统计学习模型，特别是非几率模型若是函数是线性函数则为线性模型反之是非线性模型，感知机、线性支持向量机、K近邻、K均值、潜在语义分析是线性模型，核函数支持向量机、AdaBoost、神经网络是非线性模型

2.3 算法分类

2.3.1 在线学习：

每次接受一个样本，进行预测，以后学习模型并重复该操做的机器学习

2.3.2 批量学习：

一次接受全部数据，学习模型以后进行预测

2.4 技巧分类

2.4.1 贝叶斯学习

2.4.1.1 最大后验几率统计：

1）贝叶斯公式：
后验几率：\(P\left ( \theta |D \right )=\frac{P\left ( D|\theta \right )\cdot P\left ( \theta \right )}{P\left ( D \right )}\)
极大似然估计：\(P\left ( D|\theta \right )=\prod_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
先验几率：\(P\left ( \theta \right )\)
几率密度函数：\(f\left ( \theta \right ) = -\sum_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
因为样本几率\(P\left ( D \right )\)固定，因此后验几率可化为求：

\[\begin{aligned} &maxP\left ( D|\theta \right )\cdot P\left ( \theta \right )\\ &取对数\\ \Rightarrow&maxlogP\left ( \theta \right )+logP\left ( D|\theta \right )\\ &取负\\ \Rightarrow&min-logP\left ( \theta \right )-logP\left ( D|\theta \right )\\ \Rightarrow&min-\sum_{i=1}^{n}logP\left ( x_{i}|\theta \right )-\sum_{i=1}^{m}logP\left ( \theta \right )\\ \Rightarrow&minf\left ( \theta \right )-\sum_{i=1}^{m}logP\left ( \theta \right )① \end{aligned} \]

2）L1正则化：
假设\(\theta\)知足拉普拉斯分布\(P\left ( \theta \right )=\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\)则①可化为：

\[\begin{aligned} &\underset{\theta}{argmin}f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }-\sum_{i=1}^{m}loge\tfrac{-\left | \theta_{i} \right |}{\lambda }\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }+\frac{1}{\lambda }\sum_{i=1}^{m}\left | \theta _{i} \right |\\ &令\lambda=1\\ \Rightarrow&\underset{\theta}{argmin}f\left ( \theta \right )+\lambda\left \| \theta _{i} \right \|_{1} \end{aligned} \]

L1范式：\(\left \| \theta \right \|_{1} = \left | \theta _{1} \right |+\left | \theta _{2} \right |+...+\left | \theta _{n} \right |\)
3）L2正则化：
假设\(\theta\)知足正态分布（均值为0，方差为\(\sigma ^{2}\)）\(P\left ( \theta \right )=\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\)则①可化为：

\[\begin{aligned} &\underset{\theta}{argmin}f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }+\frac{1}{2\sigma ^{2}}\sum_{i=1}^{m}\theta _{i}^{2}\\ &令\sigma ^{2}=1\\ \Rightarrow&\underset{\theta}{argmin}f\left ( \theta \right )+\frac{\lambda }{2}\left \| \theta _{i} \right \|_{2}^{2} \end{aligned} \]

L2范式：\(\left \| \theta \right \|_{2} =\sqrt{\theta _{1}^{2}+\theta _{2}^{2}+...+\theta _{n}^{2}}\)
4）L一、L2正则化防止过拟合：

正则化之因此可以下降过拟合的缘由在于，正则化是结构风险最小化的一种策略实现
给loss function加上正则化项，能使得新获得的优化目标函数h = f+normal，须要在f和normal中作一个权衡（trade-off），若是还像原来只优化f的状况下，那可能获得一组解比较复杂，使得正则项normal比较大，那么h就不是最优的，所以能够看出加正则项能让解更加简单，符合奥卡姆剃刀理论，同时也比较符合在误差和方差（方差表示模型的复杂度）分析中，经过下降模型复杂度，获得更小的泛化偏差，下降过拟合程度

L1正则化和L2正则化：
L1正则化就是在loss function后边所加正则项为L1范数，加上L1范数容易获得稀疏解（0比较多）。L2正则化就是loss function后边所加正则项为L2范数的平方，加上L2正则相比于L1正则来讲，获得的解比较平滑（不是稀疏），可是一样可以保证解中接近于0（但不是等于0，因此相对平滑）的维度比较多，下降模型的复杂度

2.4.2 核方法

使用核函数表示和学习非线性模型的一种机器学习方法，将线性模型扩展到非线性模型，应用更普遍

3. 统计学习方法三要素

3.1 模型

3.2 策略

3.2.1 损失函数和风险函数

3.2.1.1 损失函数：

1）定义：度量模型一次的好坏
2）分类：

3.2.1.2 风险函数：

1）定义：度量平均意义下模型预测的好坏

3.2.2 经验风险最小化和结构风险最小化

3.2.2.1 经验风险最小化：

1）

3.2.2.2 结构风险最小化：

1）

3.3 算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后须要考虑用什么样的计算方法求解最优模型（Keras）

4. 模型评估和模型选择

4.1 训练偏差与测试偏差

4.1.1 训练偏差

4.1.2 测试偏差

4.2 过拟合与模型选择

4.2.1 过拟合

对于训练数据拟合较好，精度较高，损失函数较小
对于测试数据拟合较差，精度较低，损失函数较大
数据分布相对简单，噪声较多，机器学习模型复杂度较高

4.2.2 模型选择

选择复杂度合适的模型达到是测试偏差最小的目的

5. 正则化与交叉验证

5.1 正则化

见2.4.1.1

5.2 交叉验证

5.2.1 简单交叉验证

将数据集按必定比例分为训练集和测试集，在各类条件下训练获得模型，用测试集评价模型的测试偏差，选出偏差最小的模型

5.2.2 S折交叉验证

第1步，将数据等分到s份
第2步，下列步骤重复s次
（1）每一次迭代中留存其中一份数据。第一次迭代中留存第1份，第二次留存第2份，其他依此类推，第i次留存第i份
（2）用其余s-1份数据的信息做为训练数据，训练分类器（第一次迭代中利用从第2份到第s份的信息进行训练分类器）
（3）利用留存的数据做为测试数据，来测试分类器并保存测试结果。
第3步，上述步骤完成后，从s个分类器中，选择最好的一个最为分类模型【如：用经验风险最小进行模型选择】

5.2.3 留一交叉验证

留一法就是每次只留下一个样本作测试集，其它样本作训练集，若是有k个样本，则须要训练k次，测试k次
留一发计算最繁琐，但样本利用率最高。适合于小样本的状况

6. 泛化能力

6.1 泛化偏差

6.2 泛化偏差上界

6.2.1 定义

6.2.2 推导

不等式（1.32）左端R（f）是泛化偏差，右端即为泛化偏差上界。在泛化偏差上界中，第一项时候训练偏差，训练偏差越小，泛化偏差也越小。第二项 \(\varepsilon \left ( d,N,\delta \right )\) 是N的单调递减函数，当N趋于无穷时趋于0。同时它也是 \(\sqrt{logd}\) 阶的函数，假设空间F包含的函数越多，其值越大。
Hoeffding不等式:

可知\(\hat{R}\left ( f \right ) = E\bar{x}，R\left ( f \right ) = \bar{x}\)

（1.38）的推导：

\[\begin{aligned} &\delta =de^{-2N\varepsilon ^{2}}\\ \Rightarrow&\frac{\delta }{d}=e^{-2N\varepsilon ^{2}}\\ \Rightarrow&\frac{d}{\delta }=e^{2N\varepsilon ^{2}}\\ \Rightarrow&log\frac{d}{\delta } = loge^{2N\varepsilon ^{2}}\\ \Rightarrow&\frac{1}{2N}\left ( logd+log\frac{1}{\delta } \right ) = \varepsilon ^{2}\\ \Rightarrow&\sqrt{\frac{1}{2N}\left ( logd+log\frac{1}{\delta } \right )} = \varepsilon \end{aligned} \]

7. 生成模型与判别模型

7.1 生成模型

7.1.1 特色

生成模型估计的是联合几率分布，特色是从统计的角度表示数据的分布状况，能反映同类数据自己的类似度，不关心各种的边界在哪，生成模型能够获得判别模型，判别模型得不到生成模型

7.1.2 优缺点

7.1.2.1 优势：

1）因为统计了数据的分布状况，因此其实际带的信息要比判别模型丰富，对于研究单类问题来讲也比判别模型灵活性强
2）模型能够经过增量学习获得（增量学习是指一个学习系统能不断地重新样本中学习新的知识，并能保存大部分之前已经学习到的知识）
3）收敛速度更快，当样本容量增长的时，生成模型能够更快的收敛于真实模型
4）隐变量存在时，也可使用

7.1.2.2 缺点：

1）学习和计算过程比较复杂，因为学习了更多的样本信息，因此计算量大，若是咱们只是作分类，就浪费了这部分的计算量
2）准确率较差
3）每每须要对特征进行假设，好比朴素贝叶斯中须要假设特征间独立同分布，因此若是所选特征不知足这个条件，将极大影响生成式模型的性能

7.2 判别模型

7.2.1 特色

判别模型估计的是条件几率分布，不能反映训练数据自己的特性，目的在于寻找不一样类别之间的最优分界面

7.2.2 优缺点

7.2.2.1 优势：

1）因为关注的是数据的边界，因此能清晰的分辨出多类或某一类与其余类之间的差别，因此准确率相对较高
2）计算量较小，须要的样本数量也较小

7.2.2.2 缺点：

1）不能反映训练数据自己的特性
2）收敛速度较慢

8. 监督学习的应用

8.1 分类问题

8.1.1 定义

输出变量Y取有限个离散值的预测问题

8.1.2 精确率、召回率、混淆矩阵和\(F_{1}\)Score

8.1.2.1 混淆矩阵：

对二分类：	预测值：	0	1
真实	0	TN	FN
值	1	FP	TP

准确率：\(\frac{TP+TN}{D}\)

8.1.2.2 精确率：

1）\(P=\frac{TP}{TP+FP}\) 须要更多的正类

8.1.2.3 召回率：

1）\(P=\frac{TP}{TP+FN}\) 须要更多的负类正负样本不均衡使用

8.1.2.4 \(F_{1}\)Score：

1）\(\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}\Rightarrow F_{1}=\frac{2PR}{P+R}=\frac{2TP}{2TP+FP+FN}\) 平衡精确率召回率
2）N分类：\(< F_{1}> =\frac{1}{n}\sum_{i=1}^{n}F_{i}=\frac{1}{n}\sum_{i=1}^{n}\frac{2P_{i}R_{i}}{P_{i}+R_{i}}\)
预测类做为正类其余类做为负类则化二分类问题