理解偏倚和方差权衡

当咱们讨论预测模型时,预测偏差能够分解为两个主要部分:由“偏倚”引发的偏差,以及由“方差”引发的偏差。模型最小化偏倚和方差的能力之间存在着权衡。理解这两种类型的错误能够帮助咱们诊断模型结果,避免过拟合或欠拟合。算法

1 偏倚和方差

理解不一样的偏差源是如何致使偏倚和方差的,能够帮助咱们改进数据的拟合过程,从而得到更精确的模型。咱们从概念,图形以及数学公式三个方面来定义偏倚和方差。机器学习

1.1 概念定义

  • 由偏倚引发的偏差:模型的指望(平均)预测值与真实值之间的差别。固然,你只有一个模型,因此讨论指望/平均预测值可能有点奇怪。假设你能够重复屡次建模过程:每一次收集新数据并进行新的分析,建立一个新模型。因为数据的随机性,生成的这些模型将会有一系列的预测值。偏倚衡量了这些模型的预测值与真实值之间的平均差别。
  • 由方差引发的偏差:模型在给定一个数据点上的预测波动性。再次假设你能够重复建模屡次。方差是指:在给定数据点上不一样模型预测值之间的差别程度。

1.2 图形定义

咱们可使用靶心图对偏倚和方差进行可视化。假设靶心表示模型完美地预测真实值。随着偏离靶心,咱们的预测值将会愈来愈差。假设咱们屡次重复建模,获得多个预测值,对应着靶子上的每一次投掷。考虑到咱们收集到的训练集的差别性,每一次投掷均表明模型的一次实现。有时,咱们会获得一个很好的训练数据集,预测结果很好,离靶心很近。然而,有时咱们的训练集可能包含不少离异点或者一些不标准的数值,致使预测效果不好。这些预测结果对应着靶子上的一系列投掷点。函数

咱们能够绘制四种不一样的例子来表示高/低误差和方差的组合。
@图片学习

1.3 数学定义

记预测变量为Y,协变量为X,假设他们之间的关系为:
@图片测试

其中,偏差项服从正态分布:
@图片图片

咱们可使用线性回归或者其余建模方法,来创建模型f^(X)预测函数f(X)。这这种状况下,在点x处的均方偏差为:
@图片数学

这个偏差能够分解为偏倚和方差项:
@图片变量

第三项为残差,是真实关系中的噪声项,任何模型都不能从根本上减小它。给定真实模型以及无限的数据去校准,咱们应该可以把偏倚和方差降为0。然而,在一个不完美模型以及有限数据的世界中,咱们只能在最小化偏倚和方差之间进行权衡。可视化

2 例子:投票意向

让咱们进行一个简单的模型构建任务。咱们但愿为下届选举中投票给共和党总统的人创建一个模型。随着模型的发展,这在概念上是微不足道的,一般比人们想象中的“建模”要简单的多,但它有助于咱们清楚地说明偏倚和方差之间的区别。自适应

一个简单的,或与有缺陷的(下面咱们将会看到),创建这个模型的方法是随机选择50个电话号码,并打电话询问他们计划在下次选举中投票给谁。假设咱们获得一些结果:
@图

从上面数据中,咱们能够估算投票给共和党的几率为:13/(13+16)=44.8%。咱们发布新闻说民主党将领超10个百分比的票数赢得选取。可是,当选举来临时,他们实际上落后10个百分比票数落选。那确定反映出咱们预测的结果很差。咱们的模型出了什么问题?

显然,咱们构建的模型有不少问题:咱们仅仅从电话簿中进行抽样,因此受访群众仅仅是出如今电话名单中的人;咱们没有跟进无应答群众,他们可能有不一样的投票模式或偏向。并且,样本量过小,不能很好表明总体。

把这些偏差缘由都放在一个大盒子里是很迷惑的。实际上,他们能够按照致使偏倚的缘由和致使方差的缘由进行划分。
例如,使用电话簿进行抽样是产生”偏倚“的缘由之一。仅仅调查特定类别的人群,将会致使咱们重复建模所获得的结果将是一致的。相似的,没有跟进无应答群众是偏倚的另外一来源之一,它颇有可能会改变与应答群众混合的结果。在靶心图中,这些将会使咱们偏离靶心,但不会改变估计数的分散程度。

另外一方面,样本量较小是方差的来源之一。若是咱们增长咱们的样本量,每次重复调查和与测试,结果就会更加一致。因为偏倚的影响,咱们获得的结果可能仍然很是不许确,可是预测的方差将会减小。小样本量将会致使估计值在靶心图上的分布比较分散。增大样本量可使得估计值分布更加集中,可是它们仍可能比较偏离靶心。

通常状况下,用于构建模型的数据集是在模型构建以前提供的,建模人员不能简单地说:“让咱们增长样本量以减小方差。”在实践中,偏倚和方差之间存在着权衡,其中一个减小将会致使另外一个增长。最小化模型的偏差须要仔细权衡偏倚和方差。

3. 应用实例:选民登记

让咱们看一个更实际的例子。假设咱们有一个训练数据集,包含选民的三个信息:选民的政党登记,选民的财富,以及选民的宗教信仰信息。以下图:X轴表示财富信息,Y轴表示宗教信息,红色圈圈表明共和党选民,蓝色圈圈表明民主党选民。咱们要利用财富和宗教信息来预测选民登记。
@图

3.1 k-近邻算法

有不少方法来完成这个建模任务。对于这种二分类数据,咱们常用逻辑回归。然而,若是咱们认为变量之间存在非线性关系、那么使用更灵活的数据自适应方法可能会更加理想。其中,k-近邻算法就是一个很是灵活的机器学习算法。

相关文章
相关标签/搜索