模型选择主要有两个思路:
1.解释性框架
在已有数据下,重点关注哪些变量是模型的重要变量,模型的形式应该怎样。好的模型应该是最能解释现有数据的模型。
2.预测性框架
重点关注哪些变量是模型的潜在变量以及模型的可能形式。好的模型应该是最能预测结果的模型。html
AIC: Akaike information criterion,赤池信息量。
BIC:Bayesian information criterion,贝叶斯信息度量,也叫 SIC, SBC, SC,SBIC。web
在选择模型来预测推理时时默认了一个假设,即给定数据下存在一个最佳的模型,且该模型能够经过已有数据估计出来,根据某个选择标准选择出来的模型,用它所作的推理应该是最合理的。这个选择标准就能够是AIC和BIC。没有模型的选择的绝对标准,好的选择标准应该根据数据分布不一样而不一样,而且要能融入到统计推理的框架中去。app
AIC:基于Kullback-Leibler (K-L)信息损失的,provides an asymptotically unbiased estimator of the expected Kullback discrepancy between the generating model and the fitted approximating model
。
BIC:基于贝叶斯因子。框架
定义式为:
。选择模型时选择AIC最大的模型。
选择模型时选择BIC最大的模型。ide
在模型拟合时,增长参数可以使得似然几率增大,可是却引入了额外的变量。AIC和BIC都在目标式中添加了模型参数个数的惩罚项。svg
在选择模型时,贝叶斯方法的作法是在给定数据
下最大化模型
的后验几率。
根据贝叶斯定理,有:
函数
其中
是模型的边缘几率,在给定数据
时,
是相同的,且假设在不知道任何数据的状况下各个模型是一样合理的,即
是定值,因而,最大化后验几率等价于最大化模型的边缘几率。而:
其中,
是模型
的参数向量,
是似然函数,
是参数
的几率分布。大数据
在选择模型时,选择后验几率最大的模型,好比有两个模型 其后验几率分别为 ,经过比较这两个值的大小或者比较 与1的大小,从而确地选择模型0仍是1,当它比1大时选择模型 ,比1小时选择模型 。 被称为贝叶斯因子。能够看到,使用贝叶斯因子方法来选择模型,不须要考虑参数的先验几率(实际上是假设了先验相等),这在不少参数先验没法求出时颇有用,贝叶斯因子能够比较任意两个模型的好坏。Kass等人1995年证实了在某种状况下,基于BIC的模型选择方法近似等价于基于贝叶斯因子的模型选择方法。贝叶斯因子方法不预测结果,隶属于解释性框架。ui
更详细的推到见参考文献[1]spa
AIC和BIC的公式中前半部分是同样的,后半部分是惩罚项,当 时, ,因此,BIC相比AIC在大数据量时对模型参数惩罚得更多,致使BIC更倾向于选择参数少的简单模型。
[1] Model Selection Lecture V: The Bayesian Information Criterion http://myweb.uiowa.edu/cavaaugh/ms_lec_5_ho.pdf