R基础提供的标准方法

  • plot()

lm()函数返回对象使用plot()函数,能够生产给你评价模型拟合状况的四幅图形函数

fit <- lm(weight ~ height, data = women)
par(mfrow=c(2,2))  #图将以2*2布局
plot(fit)

 

  • OLS回归的统计假设

 

回顾下OLS回归的统计假设内容布局

  • 正态性

当预测变量固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布。spa

“正态Q-Q图”(Normal Q-Q)是正态分布对对应的值下,标准化残差的几率图,若知足正态假设,那么图上点应该落在45度角的直线上,若不是如此,那么违反了正态性的假设code

 

  • 独立性

没法从图中收集分辨出因变量值是否独立,只能从收集的数据中验证?orm

  • 线性

若因变量与自变量线性相关,那么残差值和预测(拟合)值就没有任何系统关联。换句话说 ,除了白噪声,( 如何判断时间序列是不是白噪声? - 知乎 )模型应该包含数据中全部的系统防方差,在“残差图与拟合图”(Residuals vs Fitted)中能够清楚的看到一个曲线关系,暗示可能须要回归模型须要加上一个二次项对象

  • 同方差性

若知足不变方差假设,那么在位置尺度图(Scale-Location Graph)中,水平线周围点应该随机分布,该图彷佛知足此假设get

 

  • 一个观测点是离群点,

代表拟合回归模型对其效果不佳(产生了巨大的正或负的残差)it

  • 一个观测点有很高的杆杠值

代表它是一个异常的预测变量值的组合,也就说,在预测变量空间中年,它是一个离群点,因变量不参与计算一个观测点的杠杆值io

  • 一个观测点是强影响点(influential observation)

代表它对模型参数的估计产生的影响过大,很是不成比例,强影响点能够经过Cook距离即Cook’D统计量来鉴别变量

相关文章
相关标签/搜索