【数理统计基础】 03 - 参数估计

时间 2019-11-09

标签数理统计基础参数估计繁體版

原文原文链接

　　数理统计要解决的问题是，根据样本的信息猜想随机变量的信息。随机变量的分布可能彻底未知，也可能已经断定为某类分布\(f(x,\theta_1,\cdots,\theta_k)\)，但有未知参数\(\bar{\theta}=(\theta_1,\cdots,\theta_k)\)，这是数理统计中最常研究的情景。函数

1. 点估计

　　一类最简单的问题是，要求给出参数函数\(g(\bar{\theta})\)的一个统计量估计\(\hat{g}(X_1,\cdots,X_n)\)。由于对于某次试验，估计量\(\hat{g}\)是肯定的值，它被称为\(g\)的点估计。须要估计的函数\(g\)每每是参数\(\bar{\theta}\)自己，这里只讨论经常使用分布的参数估计。学习

1.1 矩估计

　　点估计就是值的近似，而分布的矩和样本矩正是一对现成的近似关系，并且大数定理也保证了它们的极限关系。被估函数\(g\)和估计量\(\hat{g}\)分别取矩和样本矩的方法就叫矩估计法，只须要有\(k\)个不一样的联立方程（1）便能获得参数的估算值\(\hat{\theta}_1,\cdots,\hat{\theta}_k\)（但不必定全部时候都要求估计参数）。而常见的分布只有一个或两个参数（正态分布），每每用样本均值\(\bar{X}\)或样本方差\(S^2\)就能获得很好的估计。事件

\[\hat{g}_i(X_1,\cdots,X_n)=g_i(\theta_1,\cdots,\theta_k),\;\;(i=1,\cdots,k)\tag{1}\]数学

　　对于经常使用分布的矩估计，这里就不一一列举了，计算并没有本质困难。这里仅给出均匀分布\([\theta_1,\theta_2]\)的矩估计（均值和方差）结果（式（2）），请注意和其它方法的比较。it

\[\hat{\theta}_1=\bar{X}-\sqrt{3}S;\;\;\hat{\theta}_2=\bar{X}+\sqrt{3}S\tag{2}\]变量

1.2 最大似然估计

　　矩估计法是一个很是符合直观的方法，但并非惟一的方法，换一个思惟，也能找到别的“合乎情理”的方法。站在几率论的角度，咱们但愿能找到参数“可能性最大”的值，但关于可能性的度量还比较含糊。教材上直接告诉咱们，若是分布的密度函数是\(f(x,\bar{\theta})\)，则整个样本的密度函数为式（3），对于肯定的采样\((x_1,\cdots,x_n)\)，合适的\(\hat{\theta}_i\)应当使得\(L(\bar{\theta})\)达到最大值。用这样的\(\hat{\theta}_i\)做为\(\bar{\theta}\)的点估计的方法叫作最大似然估计法，\(L(\bar{\theta})\)则称为似然函数。扩展

\[L(x_1,\cdots,x_n,\theta_1,\cdots,\theta_k)=\prod_{i=1}^n f(x_i,\theta_1,\cdots,\theta_k)\tag{3}\]lambda

　　这个方法看起来很合理，但和矩估计法差异太大，甚至让人担忧会得出相矛盾的结论。而且若是仔细推敲，这样的似然函数其实并不合理，由于\(L(\bar{\theta})\)最大和最可能的\(\bar{\theta}\)仍是有很大差异的，\(L(\bar{\theta})\)并不能轻易当作\(\bar{\theta}\)的密度函数。讲到这里，其实咱们已经触及到数理统计中的一个争论点了，就是\(\bar{\theta}\)究竟应该当作肯定值仍是随机变量？方法

　　矩估计法就是把\(\bar{\theta}\)看作肯定值，这也是符合直觉的。但若是非要讨论最大可能性的\(\bar{\theta}\)，就不得不把它当作随机变量看待，这就是贝叶斯思想。似然函数本质上应当是个条件几率\(P(A|B)\)，条件\(B\)就是观察值\(x_1,\cdots,x_n\)，但初始几率\(P(A)\)是什么？这就是问题的关键，\(\bar{\theta}\)应当有个初始分布，答案很简单，初始的\(\bar{\theta}\)默认是均匀分布的。这正是最大似然法适用的场合与实际意义，使用时必定要确保这个假设是成立的，详细的贝叶斯法在下一段展开讨论。im

　　为了计算方便，通常是求解\(\ln L(\bar{\theta})\)的极值，即求联立方程（4）的解，获得的是函数不动点，有时还要论证是否为最值。经常使用分布的最大似然估计大多与矩估计法的结果同样，这是一种巧合，但也说明了最大似然估计法的有效性。不过也有与矩估计法不一样的，好比正态分布的方差，获得的估计是\(m_2\)，而非修正的样本方差。再好比均匀分布\([\theta_1,\theta_2]\)，因为密度函数非零的部分是\((\theta_2-\theta_1)^{-n}\)，显然在\(\theta_2-\theta_1\)最小时取得最大值，故有式（5）的估计。

\[\frac{\partial[\ln L(\theta_1,\cdots,\theta_k)]}{\partial\theta_i}=0,\;\;(i=1,\cdots,k)\tag{4}\]

\[\hat{\theta}_1=\min\{X_i\};\;\;\hat{\theta}_2=\max\{X_i\}\tag{5}\]

1.3 优良性准则

　　对于同一个参数，能够有不一样的点估计，在具体的场景下应当如何选择，是很重要的问题。在制定准则时，有两点须要注意：一是断定准则是根据具体需求制定，好坏并非绝对的；二是断定准则每每是针对全体样本的，某个具体样本的好坏不足以说明问题。

　　最简单的准则就是无偏性，它要求\(E(\hat{g}(\theta))=g(\theta)\)。无偏性适用于屡次偏差能够补偿的状况，好比买东西的重量，偏差形成的双方损失能够互补。但对于精度要求高的场景，还但愿\(\hat{g}(\theta)\)尽可能聚拢在\(g(\theta)\)周围，也就是说它的方差还要尽可能小。在全部无偏估计中，方差最小的称为最小方差无偏估计，简称MVU估计。

　　MVU估计比较难找，甚至根本不存在。有一个朴素的思想是，若是能获得\(D(\hat{g}(\theta))\)的一个下界，而且正好找到了这样的\(\hat{g}(\theta)\)，那么就是找到了MVU估计。这个看似异想天开的方法，竟然还真有比较好的结论，下面来看看。结论的灵感来自于不等式\(\text{Cov}^2(\xi,\eta)\leqslant D(\xi)D(\eta)\)，其中等式成立的充要条件是\(\xi,\eta\)（中心化后）有简单的线性关系。

　　构造的思路是这样的，须要选择一个统计量\(G\)，它使得\(\text{Cov}(\hat{g},G)\)是与\(\hat{g}\)无关的常量，而后全部\(\hat{g}\)中还存在与\(G\)有简单线性关系的统计量。对\(\hat{g}\)的惟一限制条件是其指望为\(g\)，它也是惟一可利用的等式，所以\(G\)要取与样本分布密度\(p=\prod f(X_i,\theta)\)有关的函数。这个问题正面求解彷佛很难，咱们不妨从最简单的场景入手，就拿正态分布的均值估计\(\bar{X}\)为例，与\(p\)有关且与\(\bar{X}\)有线性关系的量是式（6）中的\(G\)。

\[G(X_1,\cdots,X_n)=\sum_{i=1}^n[\ln f(X_i,\theta)]'_{\theta}=\sum_{i=1}^n\dfrac{f'_{\theta}(X_i,\theta)}{f(X_i,\theta)}\tag{6}\]

　　能够计算获得，\(\text{Cov}(\hat{g},G)=g'(\theta)\)，而后还能获得\(E(G)=0\)，接下来由\(X_i\)的独立性能够把\(D(G)\)记做\(nI(\theta)\)。最终获得式（7）的克拉美-劳不等式，其中\(I(\theta)\)被称为费歇尔信息量（若是\(X_i\)是离散的也有相似的表达式），也许在信息论中会有更好的阐述，这里就不探究了。证实中还需知足一些一致性的要求，这里也省略了，请自行参考教材。

\[D[\hat{g}(X_1,\cdots,X_n)]\geqslant\dfrac{[g'(\theta)]^2}{nI(\theta)};\;\;I(\theta)=\int_{-\infty}^{\infty}\dfrac{[f'_{\theta}(x,\theta)]^2}{f(x,\theta)}\,\text{d}x\tag{7}\]

　　式（6）对任何统计量都成立，咱们更应当关注等号成立的条件，即\(\hat{g}\)和\(G\)有线性关系。对于均值估计\(\bar{X}\)，要想它是MVU估计，只需\([\ln f(x,\theta)]'_\theta\)是\(x\)的线性函数（固然还要验证一致性，这里略去），容易验证常见分布通常都知足这个条件。另外还能够证实，方差\(S^2\)也是\(\sigma^2\)的MVU估计。

2. 区间估计

　　参数估计的目的是对参数更多的了解，点估计的结果虽然直接易用，但却丢失了太多参数的信息，使用上也没有灵活性。为了包含参数的更多信息，咱们但愿找到两个统计量\(\hat{g}_1,\hat{g}_2\)，以区间形式估计参数，并达到必定的几率要求。通常是对给定足够小的\(\alpha>0\)，要找到尽可能小的区间\([\hat{g}_1,\hat{g}_2]\)，使它能以\(1-\alpha\)的几率包含\(g(\theta)\)（式（8））。

\[P[\hat{g}_1(X_1,\cdots,X_n)\leqslant g(\theta)\leqslant\hat{g}_2(X_1,\cdots,X_n)]=1-\alpha\tag{8}\]

　　这样的估计方法叫区间估计，其中\([\hat{g}_1,\hat{g}_2]\)叫置信区间，而\(1-\alpha\)是区间的置信系数。有两点须要强调：一个是这里仍然是把参数当作肯定值，把样本当作随机变量，因此置信系数的意义是“区间能包含参数”的几率，而非“参数落在区间里”的几率；另外一个是区间长度越小越好，但不作强求，由于区间自己就是随机变量，对它最小值的讨论比较困难。

　　为了构造统计量\(\hat{g}_1,\hat{g}_2\)，观察式（8），其中只包含待估参数和样本值，以及它们之间的几率不等式。一种比较方便的构造方法是这样的，找一个变量\(G(g(\theta),X_1,\cdots,X_n)\)，它服从一个比较简单的分布\(F\)。为了生成置信区间，通常把变量值限定在\(E(G)\)的两侧，每测的几率分别取\((1-\alpha)/2\)。若是用\(f(\alpha)\)表示\(F\)的\(\alpha\)分位点，则创建不等式（9），整理后便能获得式（8）置信区间。

\[E(G)-f(1-\frac{\alpha}{2})\leqslant G(g(\theta),X_1,\cdots,X_n)\leqslant E(G)+f(\frac{\alpha}{2})\tag{9}\]

　　这里的\(G\)就是前面提到过的枢轴变量，所以该方法也叫枢轴变量法。不少分布的枢轴变量比较难构造或者计算量大，甚至有时对分布彻底未知，这时若是样本足够大，能够利用中心极限定理，以标准正态分布做为枢轴变量。这里咱们只讨论正态分布，它的经常使用枢轴变量还有上篇介绍的三大变量，请先回顾相关性质。如下讨论仅给出枢轴变量，具体置信区间请自行计算，并无本质困难。

　　先讨论单样本的正态分布\(X\sim N(\mu,\sigma^2)\)。估计均值\(\mu\)时，\(\sigma\)可能已知也可能未知，上篇的公式（8）和（15）即是对这两种状况的枢轴变量。再估计方差\(\sigma^2\)，一样分为\(\mu\)已知和未知两种状况，\(\mu\)已知的状况比较简单，未知时上篇的公式（17）即是咱们要的枢轴变量。

　　再讨论两样本的正态分布，通常是根据两个随机变量的观察值，比较它们的参数。设两个随机变量为\(X\sim N(\mu_1,\sigma_1^2)\)和\(X\sim N(\mu_2,\sigma_2^2)\)，样本分别是\(X_1,\cdots,X_m\)和\(Y_1,\cdots,Y_n\)。一种是要考察\(\mu_1-\mu_2\)的大小，通常的作法固然是用\(\bar{X}-\bar{Y}\)去估计它。当\(\sigma_i\)都已知时，\(\bar{X}-\bar{Y}\)的方差为\(\sigma^2=\dfrac{\sigma_1^2}{m}+\dfrac{\sigma_2^2}{n}\)，枢轴变量比较显然。

　　当\(\sigma_i\)都未知时，暂时没办法把\(\sigma\)消除（即便用\(S_1^2+S_2^2\)也不行），这里只讨论\(\sigma_1=\sigma_2\)的场景。为了能使用\(t\)分布，直接使用式（10）中的\(S^2\)来近似方差，容易获得枢轴变量（11）。当\(\sigma_1\ne \sigma_2\)时，暂时没有完美的解决方法，该问题称为贝伦斯-费歇尔问题。

\[S^2=\dfrac{\sum\limits_{i=1}^m(X_i-\bar{X})^2+\sum\limits_{i=1}^n(Y_i-\bar{Y})^2}{m+n-2}\tag{10}\]

\[\dfrac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{1/m+1/n}\cdot S}\sim t_{m+n-2}\tag{11}\]

　　最后来比较\(X,Y\)的方差，直接做差比较难处理，并且意义也不明显。通常是估计\(\sigma_1^2/\sigma_2^2\)的大小，它能够直接使用上一篇的式（19）做为枢轴变量。

3. 贝叶斯估计

　　如今来正式讨论贝叶斯估计，它的模型直接从事件的条件几率扩展而来，只不过由事件几率扩展为分布密度（一样适用于离散分布）。贝叶斯法的最大特色就是把参数\(\theta\)看作一个随机变量，如何理解这一点很是关键。现实中参数\(\theta\)必定是肯定的，只不过咱们不知道它的信息。但根据过去的认识或合理的假设，对\(\theta\)的全部可能值会有个评估，这样的评估就使得\(\theta\)有了随机变量的性质。须要着重强调的是，随机变量不是变量，它只是对不一样可能性的一种描述。

　　脑洞再开大一点，则能够认为咱们以必定几率处在不一样的平行时空中，而\(\theta\)在每个时空中都有一个肯定的值。在获得观察\(X_1,\cdots,X_n\)后，咱们须要从新评估处在不一样时空的几率。这是典型的条件几率问题，但要注意，这时讨论的样本空间是\(\theta,x_1,\cdots,x_n\)。假设随机变量\(X\)的密度函数为\(f(x,\theta)\)，参数\(\theta\)的先验分布的密度函数为\(h(\theta)\)，容易获得\(\theta\)的后验几率的密度函数（式（12））。

\[h(\theta\,|\,x_1,\cdots,x_n)=\dfrac{p(\theta)}{\int p(\theta)\,\text{d}\theta},\;\;p(\theta)=h(\theta)\prod_{i=1}^nf(x_i,\theta)\tag{12}\]

　　前面说过，最大似然估计本质上也是贝叶斯思想，只是先验分布采用的是均匀分布。这里有个很现实的问题，如何在无限区间（好比整个实数域、全部正数等）上定义均匀分布？这个对咱们仍是太困难，也许测度论中会有完美解释？这就不得而知了。但仍是能够换个思路，\(h(\theta)\)在条件分布中本质上起到的是“权重”的做用，也就是说它的根本意义在于代表几率之间的“比重”。好比对于均匀分布，只需取\(h(\theta)=1\)就足以说明“均匀”的性质，没必要要求\(h(\theta)\)是一个严格的密度函数（但由式（12）易知后验几率必定是密度函数）。

　　但不管如何，在式（12）的使用过程当中，必须先给出一个先验分布\(h(\theta)\)，这个分布的选择很是影响估计结果。不少时候先验分布难以肯定，只能凭主观经验，这给贝叶斯方法带来了不少诟病。但因为贝叶斯思想的有效性和方便性，它在数理统计中仍然大行其道，甚至造成了所谓的贝叶斯学派，以区别于坚持频率方法的学者。一种和解的方法是认可两个模型本质的不一样，而且互相补充、互相学习。但以我的粗浅的了解，我以为贝叶斯思想是对传统模型的扩充，它是用先验几率把传统模型补充完整而已。这个补充就如同虚数于实数系统同样，是打破直觉却很是必要的抽象，是现代数学所具备的特征。

　　贝叶斯模型是完整的，且逻辑自洽的，方法自己不该该被诟病。既然问题出在先验几率的选择，那么在使用时挑选最合适的便可。这就是另一个问题了，须要更多的理论分析和支持，不能把这部分工做的欠缺怪罪于贝叶斯模型自己。在大部分场合，\(h(\theta)\)通常遵循“同等无知”原则，这个原则的缺点也是显然的：若是对\(\theta\)是同等无知的，则对它的函数则基本不知足。这时选择对谁同等无知就很关键，在正态分布中通常取\(h(\sigma)=\sigma^{-1}\)，在指数分布中通常取\(h(\lambda)=\lambda^{-1}\)。

　　后验几率能够看作包含了参数的全部信息，它能够被用做点估计和区间估计。在点估计时，最合理的应当是取指望值，而非最大似然法中的最大值。伯努利分布（先验几率取均匀分布）在贝叶斯方法中的指望值是\(\hat{p}=\dfrac{N+1}{n+2}\)，这在\(n\)很小时明显更合理（最大似然法获得\(\dfrac{N}{n}\)）。

　　后验几率上的区间估计实现起来很是方便，它有统一的计算过程，而不依赖于具体分布。针对指定的置信系数，寻找最小的置信区间，是存粹的分析学计算问题。后验分布有对称轴时，最小置信区间通常也是对称的。其它状况下，能够先固定一个边界以肯定另外一个边界，而后变更第一个边界寻找最小区间。实在复杂的计算，也能够直接交给计算机完成。最后须要提醒一下，这里的置信区间和第二段中的置信区间有着本质的区别，一个是\(\theta\)自身（随机变量）的取值区间，一个是能够包含\(\theta\)（肯定值）的区间，请仔细体会。