回归假设问题的改进

  • 删除观测点
删除离群点能够提升数据集对于正态假设的拟合度,而强影响点会干扰结果,一般也会被删除,二者删除后模型须要从新拟合,一直重复上述过程,可是要谨慎把,由于有些删除会致使结果错误

  • 变量置换
当模型不符合正态性、线性或同方差性假设时,一个或多个变量的变统统常能够改善或调整模型效果。变换多用   替代   ,   的常见值和解释见表8-5。若  是比例数,一般使用 logit变换[ln(Y/1-Y)]


模型违反正态性假设时,一般能够对 响应变量尝试某种变换car 包中的 powerTransform() 、spreadLevelPlot()函数经过 λ 的最大似然估计来正态话变量X^λ
模型异方差性(偏差方差非恒定),也能够经过响应变量尝试某种变换
> library(car)
> summary(powerTransform(states$Murder))
bcPower Transformation to Normality 

              Est.Power Std.Err. Wald Lower Bound Wald Upper Bound  #使用Murder^0.6
states$Murder    0.6055   0.2639           0.0884           1.1227

Likelihood ratio tests about transformation parameters
                           LRT df       pval
LR test, lambda = (0) 5.665991  1 0.01729694
LR test, lambda = (1) 2.122763  1 0.14512456
结果代表,可用Murder^0.6 来正态化变量 Murder。因为0.6很接近0.5,能够尝试用平方根变换来提升模型的正态性的符合程度。但在本例子中,λ = 1 的假设也没法拒绝(p = 0.145),所以没有强有力的证据代表本例须要变量变换。 

违反了线性假设时,对预 测变量进行变换经常会比较有用。 car 包中的 boxTidwell() 函数经过得到预测变量幂数的最大似然估计来改善线性关系,下面的例子用州的人口和文盲率来预测谋杀率,对模型进行了 Box-Tidwell变换
> library(car)
> boxTidwell(Murder~Population+Illiteracy,data=states)
           Score Statistic   p-value MLE of lambda
Population      -0.3228003 0.7468465     0.8693882  
Illiteracy       0.6193814 0.5356651     1.3581188

iterations =  19
结果显示,使用变量 Population^0.87 和 Illiteracy^1.36 可以大大改善线性关系,可是对 Population( p = 0.75)和  Illiteracy(p =0.54)的计分检验又代表变量并不须要变换。这些结果与成分残差图一致的。


  • 增删变量
例如在处理多重共线性问题时,进行相应的增删。
可是若是仅是作预测,那么多重共线性并不构成问题,但若是要对每一个预测变量进行解释,那么就必须解决这问题。
最多见的就是删除某个存在多重共线性的变量。
另一种方法就即是 岭回归--多元回归的变体,专门来处理多重共线性的问题

  • 尝试其余的方法
若是存在离群点/强影响点,能够使用 稳健回归模型替代OLS回归,若是违背了 正态的假设性,能够使用非参数回归模型,若是存在显著非线性,能尝试非线性回归模型,若是违背了偏差独立性假设,还能用那些专门研究偏差结果的模型,好比时间序列模型或者多层次回归模型,最后,你还能转向普遍应用的广义线性模型,他能适用于的许多OLS回归加假设不成立的状况 
    至于用什么。。。这些判断是复杂的,须要依靠自身对主题知识的理解,判断出哪一个模型提供最佳结果
相关文章
相关标签/搜索