抽样于二项分布的数据的指望方差是 = nπ(1-π),n为观测数,n为属于 Y=1组的几率。所谓 过分离势, 即观测到的响应变量的方差大于指望的二项分布的方差。过分离势会致使奇异的标准误检验和不精确的显著性检验函数
一、比较二项分布模型的残差误差与残差自由度,若是比值:code
= 残差误差/残差自由度对象
比 1 大不少,即可以认为存在过分离势it
#断定过分离势,仍是利用以前Affairs的例子 > deviance(fit.reduced)/df.residual(fit.reduced) [1] 1.03248 #结果很是接近1,代表没有过分离势
二、对过分离势进行检验io
须要拟合模型两次,第一次使用 family =binomial,第二次使用 family =“quasibinomial”,假设第一次glm()返回对象记为fit,第二次返回对象记为 fit.od,那么:变量
pchisq(summary(fit.od)$dispersion*fit$df.residual,fit$df.residual,lower =F)
提供的p值便可对零假设 H0: = 1 与备择假设 ,H1:
≠ 1 进行检验。若 p 很小(小于0.05),即可以拒绝零假设方法
#Affairs例子 > fit <- glm(ynaffair ~ age + yearsmarried + religiousness + + rating, family = binomial(), data = Affairs) > fit.od <- glm(ynaffair ~ age + yearsmarried + religiousness + + rating, family = quasibinomial(), data = Affairs) > pchisq(summary(fit.od)$dispersion * fit$df.residual, + fit$df.residual, lower = F) [1] 0.340122 #显然不显著
当出现过分离势时,仍可以使用glm()函数拟合Logistic回归,但此时须要将二项分布改成类二项分布(quasibinomial distribution)im