统计学习方法概论

时间 2019-11-14

标签统计学习方法概论繁體版

原文原文链接

原文：http://zhouyichu.com/machine-learning/Statistical-Learning-Introduction.htmlhtml

统计学习

统计学习的特色

统计学习(statistical learning)是关于计算机给予数据构建几率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。算法

哈尔伯特西蒙(Herbert A.Simon)曾对”学习”给出如下定义:app

若是一个系统可以经过执行某个过程改进它的性能，这就是学习机器学习

统计学习的对象

统计学习的对象时数据(data)。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。函数

统计学习关于数据的基本假设是同类数据具备必定的统计规律性，这是统计学习的前提。post

在统计学习过程当中，以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。性能

统计学习的目的

统计学习用于对数据进行预测与分析，特别是对未知数据进行预测与分析。统计学习总的目标就是考虑学习什么样的模型和如何学习模型，以使模型可以对数据进行准确的预测与分析，同时也要考虑尽量地提升学习效率。学习

统计学习的方法

监督学习(supervised learning)
非监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)

监督学习

监督学习(supervised learning)的任务时学习一个模型，使模型可以对任意给定的输入，对其相应的输出作出一个好的预测(注意，这里的输入、输出是指某个系统的输入与输出，与学习的输入与输出不一样)测试

基本概念

输入空间、特征空间与输出空间优化

在监督学习中，将输入与输出全部可能取值的集合分别称为输入空间(input space)与输出空间(output space)，输入与输出空间能够是有限元素的集合，也能够是整个欧式空间。输入空间与输出空间能够是同一个空间，也能够是不一样的空间；但一般输出空间远远小于输入空间。

每一个具体的输入是一个实例(instance)，一般是由特征向量(feature vector)表示，这时，全部特征向量存在的空间成为特征空间(feature space),特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间，对它们不予区分；有时假设输入空间与特征空间为不一样的空间，将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。

回归问题:输入变量与输出变量均为连续变量。
分类问题:输出变量为有限个离散变量
标注问题:输入变量与输出变量均为变量序列的预测。

联合几率分布

监督学习假设输入与输出的随机变量X与Y遵循联合几率分布

假设空间

监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间(hypothesis space).假设空间的肯定意味着学习范围的肯定。

问题的形式化

监督学习利用训练数据集学习一个模型，再用模型对测试样本集进行预测，因为在这个过程当中须要训练数据集，而训练数据集每每是人工给出的，因此这个学习过程称为监督学习。监督学习分为学习和预测两个过程。

监督学习中，假设训练数据与观测数据是依联合几率分布

统计学习三要素

方法 = 模型 + 策略 + 算法

模型

在监督学习过程当中，模型就是所要学习的条件几率分布或决策函数，也就是说，模型能够用几率条件分布或决策函数来表示。模型的假设空间(hypothesis space)包含了全部可能的条件几率分布或决策函数。假设空间中的模型通常有无穷多个。

决策函数

当假设空间用决策函数表示时，假设空间能够定义为决策函数的集合

F = {f | Y = f (X)} (1)

其中，

F = {f | Y = f θ (X), θ \in R n} (2)

参数向量

条件几率分布

当假设空间用条件几率分布时，假设空间也能够定义为条件几率的集合

F = {P | P (Y | X)} (3)

其中，

F = {f | Y = f θ (Y | X), θ \in R n} (4)

参数向量

决策函数表示的模型为非几率模型，由条件几率表示的模型为几率模型。

策略

有了模型的假设空间，统计学习接着须要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目的在于从假设空间选取最优模型。

首先要了解损失函数与风险函数的概念。

损失函数:度量模型一次预测的好坏
风险函数:度量平均意义下模型预测的好坏

损失函数和风险函数

监督学习是从假设空间

统计学习中经常使用的的损失函数有如下几种:

0-1损失函数(0-1 loss function)
平方损失函数(quadratic loss function)
绝对损失函数(absolute loss function)
对数损失函数(logarithmic loss function)或对数似然损失函数(loglikeihood loss function)

损失函数数值越小，模型越好。因为模型的输入、输出

R e x p (f) = E p [L (Y, f (X))] = \int X \times Y L (y, f (x)) P (

这是理论上模型

给定一个训练数据集

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)} (6)

模型

R e m p (f) = 1 N \sum i = 1 N L ( y i , f ( x i ) ) (7)

指望风险

经验风险最小化与结构风险最小化

在假设空间、损失函数以及训练数据集肯定的状况下，经验风险函数就能够肯定。经验风险最小化(empirical risk minimization,ERM)的策略认为，经验风险最小的模型是最优的模型。根据这一策略，按照经验风险最小化求最优模型就是求解最优化问题:

min f \in F 1 N \sum i = 1 N L ( y i , f ( x i ) ) (8)

其中，

当样本容量足够大时，经验风险最小可以保证有很好的学校效果，在现实中被普遍采用。好比极大似然估计(maximum linklihood estimation)就是经验风险最小化的一个例子。当模型是条件几率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

可是，当样本容量很小时，经验风险最小化学习的效果未必很好，会产生”过拟合(over-fitting)“现象。

结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间、损失函数以及训练数据集肯定的状况下，结构风险的定义是:

R s r m (f) = 1 N \sum i = 1 N L ( y i , f ( x i ) ) + λ J ( f )

其中

好比，贝叶斯估计中的最大后验几率估计(maximum posterior probability estimate,MAP)就是结构风险最小化的一个例子。当模型是条件几率分布、损失函数是对数损失函数、模型复杂度由模型的先验几率表示时，结构风险最小化等价于最大后验几率估计。

结构风险最小化的策略认为结构风险最小的模型是最优模型，因此寻找最优模型，就是求解最优化问题:

min f \in F 1 N \sum i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) (10)

这样，监督学习的问题就变成了经验风险(公式

算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后须要考虑用什么样的计算方法求解最有模型。

模型评估与模型选择

训练偏差与测试偏差

统计学习的目的是使学到的模型不只对已知的数据并且对未知数据都能有很好的预测能力。不一样的学习方法会给出不一样的模型，当损失函数给定时，基于损失函数的训练偏差(training error)和模型的测试偏差(test error)就成为学习方法评估的标准。须要注意的是，统计学习方法具体采用的损失函数未必是评估时所使用的损失函数，固然，二者一致是比较理想的。

假设学习到的模型是

R e m p (f^) = 1 N \sum i = 1 N L ( y i , f ^ ( x i ) )

其中

测试偏差是模型

R e m p (f^) = 1 N ' \sum i = 1 N ' L ( y i , f ^ (

其中

训练偏差的大小，对断定给定的问题是否是一个容易学习的问题是有意义的，但本质上不重要。测试偏差反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念。一般将学习方法对未知数据的预测能力称为泛化能力(generalization ability)

过拟合与模型选择

当假设空间含有不一样复杂度(例如，不一样的参数个数)的模型时，就要面临模型选择(model selection)的问题，咱们但愿选择或学习一个合适的模型，若是在假设空间中存在”真”模型，那么所选择的模型应该逼近真模型。

可是，若是一味追求提升对训练数据的预测能力，所选模型的复杂度则每每会比真模型更高。这种现象称为过拟合(over-fitting)。过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对未知数据预测得不好的现象。在上文说到的两个监督学习的策略中，结构风险就是把模型的复杂度考虑进去了，而经验风险就没有考虑模型的复杂度，所以结构风险对于未知数据会有更好的预测。能够说模型选择旨在避免过拟合并提升模型的预测能力。

下图描述了训练偏差和测试偏差与模型的复杂度之间的关系。当模型的复杂度增大时，训练偏差会逐渐减少并趋向于0；而测试偏差会先减少，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。

下面介绍两种经常使用的模型选择方法:正则化与交叉验证。

正则化与交叉验证

正则化

模型选择的典型方法是正则化(regularization)。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项通常是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。

正则化通常具备以下的形式:

min f \in F 1 N \sum i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) (13)

其中第一项是经验风险，第二项是正则化项，

正则化的做用是选择经验风险与模型复杂度同时较小的模型。正则化符合奥卡姆剃刀原理(Occam’s razor)，奥卡姆剃刀原理应用于模型选择时变为如下的想法:在全部可能选择的模型中，可以很好地解释已知数据而且十分简单才是最好的模型。

交叉验证

另外一种常见的模型选择方法是交叉验证(cross validation)。

若是给定的样本数据充足，进行模型的选择的一种简单方法是随机地将数据集合切分红三部分，分别为训练集(training set)、验证集(validation set)和测试集(test set)。训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。在学习到的不一样复杂度的模型中，选择对验证集有最小预测偏差的模型。

可是，在许多实际应用中数据是不充足的。为了选择好的模型，能够采用交叉验证的方式。交叉验证的基本思想是重复地使用数据；把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复地进行训练、测试以及模型选择。

简单交叉验证

简单交叉验证的方法是:首先随机地将已给数据分为两部分，一部分做为训练集，另外一部分做为测试集，而后用训练集在各类条件下训练模型，从而获得不一样的模型，在测试集上评价各个模型的测试偏差，选出测试偏差最小的模型。

S折交叉验证

应用最多的是S折交叉验证(S-fold cross validation)，方法以下:首先随机地将已给数据切分为S个互不相交的大小相同的子集，而后利用S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S中选择重复进行；最后选出S次评测中平均测试偏差最小的模型。

泛化能力

泛化偏差

学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。

泛化偏差的定义:若是学到的模型是

R e x p (f^) = E p [L (Y, f^(X))] = \int X \times

泛化偏差反映了学习方法的泛化能力，若是一种方法学习的模型比另外一种方法学习的模型具备更小的泛化偏差，那么这种方法就有效。事实上，泛化偏差就是所学习到的指望风险。

泛化偏差上界

学习方法的泛化能力分析每每是经过研究泛化偏差的几率上界进行的，简称为泛化偏差上界(generalization error bound)。具体来讲，就是经过比较两种泛化偏差上界的大小来比较它们的优劣。泛化偏差上界一般具备如下性质：它是样本容量的函数，当样本容量增长时，泛化上界趋于0；它是假设空间容量的函数，假设空间越大，模型就越难学，泛化偏差上界就越大。

生成模型与判别模型

监督学习又能够分为生成方法(generative approach)和判别方法(discriminative approach)，所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)

生成方法由数据学习联合几率分布

P (Y | X) = P ( X , Y ) P ( X ) (15)

这样的方法之因此称为生成方法，是由于模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有：朴素贝叶斯法和隐马尔科夫模型。

判别方法由数据直接学习决策函数

分类问题

分类是监督学习的一个核心问题。在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这是，输入变量X能够是离散的，也能够是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier)。

对于二类分类问题经常使用的评价指标是精确率(precision)与召回率(recall)。分类器在测试数据集上的预测或正确或不正确，4种状况出现的总数分别记做:

TP——将正类预测为正类数；
FN——将正类预测为负类数；
FP——将负类预测为正类数；
TN——将负类预测为负类数；

精确率定义为:

P = T P T P + F P (16)

召回率定义为

R = T P T P + F N (17)

此外，还有

2 F = 1 P + 1 R F = 2 T P 2 T P + F P + F N (18) (19)

精确率和召回率都高时，

标注问题

标注问题的输入是一个预测序列，输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型，是它可以对观测序列给出标记序列做为预测。注意，可能的标记个数是有限的，但其组合所城的标记序列的个数是依序列长度呈指数级增加的。

评价标注模型的指标与评价分类模型的指标同样，经常使用的标注精确率和召回率。其定义与分类模型相同。

标注经常使用的统计学习方法有:隐马尔科夫模型、条件随机场。

回归问题

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

回归问题按照输入变量的个数，分为一元回归和多元回归；按照输入变量和输出变量之间关系的类型即模型的类型，分为线性回归和非线性回归。

回归学习最经常使用的损失函数是平方损失函数，在此状况下，回归问题能够由著名的最小二乘法(least squares)求解。