理解偏倚和方差权衡

时间 2019-11-11

标签理解偏倚方差权衡繁體版

原文原文链接

当咱们讨论预测模型时，预测偏差能够分解为两个主要部分：由“偏倚”引发的偏差，以及由“方差”引发的偏差。模型最小化偏倚和方差的能力之间存在着权衡。理解这两种类型的错误能够帮助咱们诊断模型结果，避免过拟合或欠拟合。算法

1 偏倚和方差

理解不一样的偏差源是如何致使偏倚和方差的，能够帮助咱们改进数据的拟合过程，从而得到更精确的模型。咱们从概念，图形以及数学公式三个方面来定义偏倚和方差。机器学习

1.1 概念定义

由偏倚引发的偏差：模型的指望（平均）预测值与真实值之间的差别。固然，你只有一个模型，因此讨论指望/平均预测值可能有点奇怪。假设你能够重复屡次建模过程：每一次收集新数据并进行新的分析，建立一个新模型。因为数据的随机性，生成的这些模型将会有一系列的预测值。偏倚衡量了这些模型的预测值与真实值之间的平均差别。
由方差引发的偏差：模型在给定一个数据点上的预测波动性。再次假设你能够重复建模屡次。方差是指：在给定数据点上不一样模型预测值之间的差别程度。

1.2 图形定义

咱们可使用靶心图对偏倚和方差进行可视化。假设靶心表示模型完美地预测真实值。随着偏离靶心，咱们的预测值将会愈来愈差。假设咱们屡次重复建模，获得多个预测值，对应着靶子上的每一次投掷。考虑到咱们收集到的训练集的差别性，每一次投掷均表明模型的一次实现。有时，咱们会获得一个很好的训练数据集，预测结果很好，离靶心很近。然而，有时咱们的训练集可能包含不少离异点或者一些不标准的数值，致使预测效果不好。这些预测结果对应着靶子上的一系列投掷点。函数

咱们能够绘制四种不一样的例子来表示高/低误差和方差的组合。
@图片学习

1.3 数学定义

记预测变量为Y，协变量为X，假设他们之间的关系为：
@图片测试

其中，偏差项服从正态分布：
@图片图片

咱们可使用线性回归或者其余建模方法，来创建模型f^{^}(X)预测函数f(X)。这这种状况下，在点x处的均方偏差为：
@图片数学

这个偏差能够分解为偏倚和方差项：
@图片变量

第三项为残差，是真实关系中的噪声项，任何模型都不能从根本上减小它。给定真实模型以及无限的数据去校准，咱们应该可以把偏倚和方差降为0。然而，在一个不完美模型以及有限数据的世界中，咱们只能在最小化偏倚和方差之间进行权衡。可视化

2 例子：投票意向

让咱们进行一个简单的模型构建任务。咱们但愿为下届选举中投票给共和党总统的人创建一个模型。随着模型的发展，这在概念上是微不足道的，一般比人们想象中的“建模”要简单的多，但它有助于咱们清楚地说明偏倚和方差之间的区别。自适应

一个简单的，或与有缺陷的（下面咱们将会看到），创建这个模型的方法是随机选择50个电话号码，并打电话询问他们计划在下次选举中投票给谁。假设咱们获得一些结果：
@图

从上面数据中，咱们能够估算投票给共和党的几率为：13/(13+16)=44.8%。咱们发布新闻说民主党将领超10个百分比的票数赢得选取。可是，当选举来临时，他们实际上落后10个百分比票数落选。那确定反映出咱们预测的结果很差。咱们的模型出了什么问题？

显然，咱们构建的模型有不少问题：咱们仅仅从电话簿中进行抽样，因此受访群众仅仅是出如今电话名单中的人；咱们没有跟进无应答群众，他们可能有不一样的投票模式或偏向。并且，样本量过小，不能很好表明总体。

把这些偏差缘由都放在一个大盒子里是很迷惑的。实际上，他们能够按照致使偏倚的缘由和致使方差的缘由进行划分。
例如，使用电话簿进行抽样是产生”偏倚“的缘由之一。仅仅调查特定类别的人群，将会致使咱们重复建模所获得的结果将是一致的。相似的，没有跟进无应答群众是偏倚的另外一来源之一，它颇有可能会改变与应答群众混合的结果。在靶心图中，这些将会使咱们偏离靶心，但不会改变估计数的分散程度。

另外一方面，样本量较小是方差的来源之一。若是咱们增长咱们的样本量，每次重复调查和与测试，结果就会更加一致。因为偏倚的影响，咱们获得的结果可能仍然很是不许确，可是预测的方差将会减小。小样本量将会致使估计值在靶心图上的分布比较分散。增大样本量可使得估计值分布更加集中，可是它们仍可能比较偏离靶心。

通常状况下，用于构建模型的数据集是在模型构建以前提供的，建模人员不能简单地说：“让咱们增长样本量以减小方差。”在实践中，偏倚和方差之间存在着权衡，其中一个减小将会致使另外一个增长。最小化模型的偏差须要仔细权衡偏倚和方差。

3. 应用实例：选民登记

让咱们看一个更实际的例子。假设咱们有一个训练数据集，包含选民的三个信息：选民的政党登记，选民的财富，以及选民的宗教信仰信息。以下图：X轴表示财富信息，Y轴表示宗教信息，红色圈圈表明共和党选民，蓝色圈圈表明民主党选民。咱们要利用财富和宗教信息来预测选民登记。
@图

3.1 k-近邻算法

有不少方法来完成这个建模任务。对于这种二分类数据，咱们常用逻辑回归。然而，若是咱们认为变量之间存在非线性关系、那么使用更灵活的数据自适应方法可能会更加理想。其中，k-近邻算法就是一个很是灵活的机器学习算法。