回归分析中R方和调整R方的区别

做者|ANIRUDDHA BHANDARI
编译|VK
来源|Analytics Vidhya算法

概述

  • 理解R方和调整R方的概念
  • 了解R方和调整R方之间的关键区别

介绍

当我开始个人数据科学之旅时,我探索的第一个算法是线性回归。机器学习

在理解了线性回归的概念和算法的工做原理以后,我很是兴奋地使用它并在问题陈述中作出预测。我相信大家大多数人也会这么作的。可是一旦咱们创建了模型,下一步是什么呢?函数

接下来是棘手的部分。一旦咱们创建了模型,下一步就是评估它的性能。毋庸置疑,模型评价是一项关键性的任务,它凸显了模型的不足。性能

选择最合适的评价指标是一个关键的任务。并且,我遇到了两个重要的指标:除了MAE/MSE/RMSE,有R方和调整R方。这二者有什么区别?我应该用哪个?学习

R方和调整R方是两个评估指标,对于任何一个数据科学的追求者来讲,这两个指标可能会让他们感到困惑。优化

它们对评估回归问题都很是重要,咱们将深刻了解和比较它们。它们各有利弊,咱们将在本文中详细讨论。spa

目录

  • 残差平方和
  • 了解R方统计量
  • 关于R方统计量的问题
  • 调整R方统计量

残差平方和

为了清楚地理解这些概念,咱们将讨论一个简单的回归问题。在这里,咱们试图根据“花在学习上的时间”来预测“得到的分数”。学习时间是咱们的自变量,考试成绩是咱们的因变量或目标变量。.net

咱们能够绘制一个简单的回归图来可视化这些数据。3d

黄点表明数据点,蓝线是咱们预测的回归线。如你所见,咱们的回归模型并不能完美地预测全部的数据点。blog

那么咱们如何利用这些数据来评估回归线的预测呢?咱们能够从肯定数据点的残差开始。

数据中某一点的 残差是实际值与线性回归模型预测值之间的差值。

残差图告诉咱们回归模型是否适合数据。残差的平方其实是回归模型优化的目标函数。

利用残差值,咱们能够肯定残差的平方和,也称为残差平方和或RSS。。

RSS值越低,模型预测值越好。或者咱们能够这样说——若是回归线使RSS值最小化,那么回归线就是最佳拟合线。

但这其中有一个缺陷——RSS是一个尺度变量统计。因为RSS是实际值和预测值的平方差之和,所以该值取决于目标变量的大小。

例子:

假设你的目标变量是销售产品所产生的收入。残差取决于目标的大小。若是收入大小以“1百卢比”为单位计算的话(即目标多是一、二、3等),那么咱们可能会获得0.54左右的RSS(假设)。

可是若是收入目标变量以“卢比”为单位(即目标值为100、200、300等),那么咱们可能会获得一个更大的RSS,即5400。即便数据没有变化,RSS的值也会随着目标的大小而变化。这使得很难判断什么是好的RSS值。

那么,咱们能想出一个更好的尺度不变的统计量吗?这就是R方出现的地方。

R方统计量

R方统计量是一种尺度不变的统计量,它给出了线性回归模型解释的目标变量的变化比例。

这可能看起来有点复杂,因此让我在这里把它分解。为了肯定模型解释的目标变化比例,咱们须要首先肯定如下内容-

平方和(TSS)

目标变量的总变化是实际值与其平均值之差的平方和。

TSS或总平方和给出了Y的总变化量。咱们能够看到它与Y的方差很是类似。虽然方差是实际值和数据点之间差的平方和的平均值,TSS是平方和的总和。

既然咱们知道了目标变量的总变化量,咱们如何肯定模型解释的这种变化的比例?咱们回到RSS。

残差平方和(RSS)

正如咱们前面讨论的,RSS给出了实际点到回归线距离的总平方。残差,咱们能够说是回归线没有捕捉到的距离。

所以,RSS做为一个总体给了咱们目标变量中没有被咱们的模型解释的变化。

R方

如今,若是TSS给出Y的总变化量,RSS给出不被X解释的Y的变化量,那么TSS-RSS给出了Y的变化,而且这部分变化是由咱们的模型解释的!咱们能够简单地再除以TSS,获得由模型解释的Y中的变化比例。这是咱们的R方统计量!

R方=(TSS-RSS)/TSS

​ =解释变化/总变化

​ =1–未解释的变化/总变化

所以,R方给出了目标变量的可变性程度,由模型或自变量解释。若是该值为0.7,则意味着自变量解释了目标变量中70%的变化。

R方始终介于0和1之间。R方越高,说明模型解释的变化越多,反之亦然。

若是RSS值很低,这意味着回归线很是接近实际点。这意味着自变量解释了目标变量的大部分变化。在这种状况下,咱们会有一个很是高的R方值。

相反,若是RSS值很是高,则意味着回归线远离实际点。所以,自变量没法解释目标变量中的大部分变量。这会给咱们一个很低的R方值。

因此,这就解释了为何R方值给出了目标变量的变化量。

关于R方统计量的问题

R方统计并不完美。事实上,它有一个主要缺陷。无论咱们在回归模型中添加多少变量,它的值永远不会减小。

也就是说,即便咱们在数据中添加冗余变量,R方的值也不会减小。它要么保持不变,要么随着新的自变量的增长而增长。

这显然没有意义,由于有些自变量在肯定目标变量时可能没有用处。调整R方处理了这个问题。

调整R方统计量

调整R方考虑了用于预测目标变量的自变量数量。在这样作的时候,咱们能够肯定在模型中添加新的变量是否会增长模型的拟合度。

让咱们看看调整R方的公式,以便更好地理解它的工做原理。

在这里,

  • n表示数据集中的数据点数量
  • k表示自变量的个数
  • R表明模型肯定的R方值

所以,若是R方在增长一个新的自变量时没有显著增长,那么调整R方值实际上会减小。

另外一方面,若是增长新的自变量,咱们看到R方值显著增长,那么调整R方值也会增长。

若是咱们在模型中加入一个随机自变量,咱们能够看到R方值和调整R方值之间的差别。

如你所见,添加随机独立变量无助于解释目标变量的变化。咱们的R方值保持不变。所以,给咱们一个错误的指示,这个变量可能有助于预测输出。然而,调整R方值降低,代表这个新变量实际上没有捕捉到目标变量的趋势。

显然,当回归模型中存在多个变量时,最好使用调整R方。这将使咱们可以比较具备不一样数量独立变量的模型。

结尾

在这篇文章中,咱们研究了R方统计值是什么,它在哪里不稳定。咱们还研究了调整R方。

但愿这能让你更好地理解事情。如今,你能够谨慎地肯定哪些自变量有助于预测回归问题的输出。

原文连接:https://www.analyticsvidhya.c...

欢迎关注磐创AI博客站:
http://panchuang.net/

sklearn机器学习中文官方文档:
http://sklearn123.com/

欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/

相关文章
相关标签/搜索