理解赤池信息量（AIC）,贝叶斯信息量（BIC）

时间 2020-07-04 标签理解信息量 aic 贝叶 bic

1、基本概念

模型选择主要有两个思路：
1.解释性框架
在已有数据下，重点关注哪些变量是模型的重要变量，模型的形式应该怎样。好的模型应该是最能解释现有数据的模型。
2.预测性框架
重点关注哪些变量是模型的潜在变量以及模型的可能形式。好的模型应该是最能预测结果的模型。html

AIC： Akaike information criterion，赤池信息量。
BIC：Bayesian information criterion，贝叶斯信息度量，也叫 SIC, SBC, SC，SBIC。web

在选择模型来预测推理时时默认了一个假设，即给定数据下存在一个最佳的模型，且该模型能够经过已有数据估计出来，根据某个选择标准选择出来的模型，用它所作的推理应该是最合理的。这个选择标准就能够是AIC和BIC。没有模型的选择的绝对标准，好的选择标准应该根据数据分布不一样而不一样，而且要能融入到统计推理的框架中去。app

AIC：基于Kullback-Leibler (K-L)信息损失的，provides an asymptotically unbiased estimator of the expected Kullback discrepancy between the generating model and the fitted approximating model $^{[1]}$ 。
BIC：基于贝叶斯因子。框架

定义式为：
$AIC =2 ln(f (y| θ _k)) - 2K$ 。选择模型时选择AIC最大的模型。
$BIC = 2 ln(f (y| θ _k)) - K log(n)。$ 选择模型时选择BIC最大的模型。ide

在模型拟合时，增长参数可以使得似然几率增大，可是却引入了额外的变量。AIC和BIC都在目标式中添加了模型参数个数的惩罚项。svg

2、BIC公式推导

在选择模型时，贝叶斯方法的作法是在给定数据 $\{y_j\}^n_{j=1}$ 下最大化模型 $(Mi)$ 的后验几率。
根据贝叶斯定理，有：
$P (M_i|y_1, . . . , y_n) = \frac{P (y_1, . . . , y_n|M_i)P (M_i) }{P (y_1, . . ., y_n)}, (1)$ 函数

其中 $P (y_1, . . . , y_n|M_i)$ 是模型的边缘几率，在给定数据 $\{y_j\}^n_{j=1}$ 时， $P (y_1, . . ., y_n)$ 是相同的，且假设在不知道任何数据的状况下各个模型是一样合理的，即 $P (M_i)$ 是定值，因而，最大化后验几率等价于最大化模型的边缘几率。而：
$P (y_1, . . . , y_n|M_i) = \int_{Θ_i} L(θ_i|y_1, . . . , y_n)g_i(θ_i)d_{θ_i}, (2)$
其中， $Θ_i$ 是模型 $M_i$ 的参数向量， $L$ 是似然函数， $g_i(θ_i)$ 是参数 $θ_i$ 的几率分布。大数据

在选择模型时，选择后验几率最大的模型，好比有两个模型 $M_0和M_1$ 其后验几率分别为 $P(y|M_0)和P(y|M_1)$ ,经过比较这两个值的大小或者比较 $B_{01}(y)=\frac{P(y|M_0)}{P(y|M_1)}$ 与1的大小，从而确地选择模型0仍是1，当它比1大时选择模型 $M_0$ ，比1小时选择模型 $M_1$ 。 $B_{01}(y)$ 被称为贝叶斯因子。能够看到，使用贝叶斯因子方法来选择模型，不须要考虑参数的先验几率（实际上是假设了先验相等），这在不少参数先验没法求出时颇有用，贝叶斯因子能够比较任意两个模型的好坏。Kass等人1995年证实了在某种状况下，基于BIC的模型选择方法近似等价于基于贝叶斯因子的模型选择方法。贝叶斯因子方法不预测结果，隶属于解释性框架。ui

更详细的推到见参考文献[1]spa

3、AIC，BIC比较

AIC和BIC的公式中前半部分是同样的，后半部分是惩罚项，当 $n≥8$ 时， $kln(n)≥2k$ ，因此，BIC相比AIC在大数据量时对模型参数惩罚得更多，致使BIC更倾向于选择参数少的简单模型。

[1] Model Selection Lecture V: The Bayesian Information Criterion http://myweb.uiowa.edu/cavaaugh/ms_lec_5_ho.pdf