数理统计11：区间估计，t分布，F分布

时间 2021-02-16

标签函数 spa class 效率变量方法统计繁體版

原文原文链接

在以前的十篇文章中，咱们用了九篇文章的篇幅讨论了点估计的相关知识，如今来稍做回顾。函数

首先，咱们讨论了正态分布两个参数——均值、方差的点估计，给出了它们的分布信息，并指出它们是相互独立的；而后，咱们讨论到其余的分布族，介绍了点估计的评判标准——无偏性、相合性、有效性；以后，咱们基于无偏性和相合性的讨论给出了经常使用分布的参数点估计，并介绍了两种经常使用于寻找点估计量的方法——矩法与极大似然法；最后，咱们对点估计的有效性进行了讨论，给出了一些验证、寻找UMVUE的方法，并介绍了CR不等式，给出了无偏估计效率的定义。以上就是咱们在前九篇文章中提到的主要内容，还顺便介绍了一些经常使用的分布：\(\Gamma\)分布、\(\beta\)分布、\(\chi^2\)分布。spa

今天开始，咱们将进入区间估计与假设检验部分。因为本系列为我独自完成的，缺乏审阅，若是有任何错误，欢迎在评论区中指出，谢谢！it

Part 1：什么是区间估计

区间估计一样是参数估计的一种方法，不一样于点估计用样本计算出的一个统计量直接做为原始参数的估计，区间估计会根据抽取出的样本，计算出一个基于样本观测值的区间。简单说来，若是对整体\(f(x;\theta)\)中的参数\(\theta\)做估计，则首先从整体中得到样本\(\boldsymbol{X}=(X_1,\cdots,X_n)\)，并肯定两个具备肯定大小关系的统计量\(\hat g_1(\boldsymbol{X})\le \hat g_2(\boldsymbol{X})\)，根据样本观测值计算出的区间\([\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]\)就是待估参数\(\theta\)的区间估计。class

由此，咱们能够看出，区间估计依然是依赖于统计量的，而且每每须要不止一个统计量。区间估计相比于点估计的特色是，区间估计给出了一个相对“粗糙”的范围，这就致使你须要使用这个参数时，不像点估计同样能直接把估计值拿来用；可是，区间估计具备涵盖参数真值的可能，由于当参数空间\(\Theta\)的取值连续时，点估计\(\hat\theta\)与真值相等的可能性\(\mathbb{P}(\hat\theta=\theta)=0\)，可是区间估计包含真值的可能性\(\mathbb{P}(\theta\in[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})])>0\)，这使得区间估计比起点估计而言，增长了必定的可靠性。效率

这么说可能比较抽象，让咱们举一个实际的例子，还记不记得第一篇文章中yhh送咱们的橙子？厂家声称一箱子橙子的平均重量是80斤，而咱们称量后发现橙子的平均重量是79.9斤，咱们不能说厂家的声称是错误的，由于点估计与真值相等的几率为0。然而，咱们经过某种手段获得了橙子重量的区间估计是\([79.5,80.5]\)斤，则你可能就会认为，橙子的重量很可能就落在这个范围内，与80斤相差不大，所以厂家的声称是能够接受的。变量

区间估计还有另外一方面的可靠性。在上面的讨论中，咱们获得的点估计是79.9斤，若是换一箱橙子，它的重量不可能仍是79.9斤了。可是，新一箱橙子的重量多是70斤吗？可能性有多大？多是80.1斤吗？可能性又有多大？点估计没法给出直观的感觉，它只会让你以为，80.1斤的几率要比70斤大点儿。可是，若是咱们得到了这样的一个区间估计：\([79.5,80.5]\)，则你就会以为80.1斤出现的可能性比较大点，而70斤几乎不可能出现。假如区间估计是\([60, 100]\)，则70斤和80.1斤就都颇有可能出现了。这就是区间估计带来的好处，能让咱们对预测的可能取值有更直观的感觉。方法

除了这种双侧都用统计量表示的区间估计，还存在一种单侧区间估计，即形如\((-\infty,u(\boldsymbol{X})]\)或者\([l(\boldsymbol{X}),+\infty)\)的区间估计。这通常表明咱们只关注参数的一侧，而不关注另外一侧，咱们称这种区间估计为单侧区间估计。不过，这种区间估计不是咱们所要关注的重点。im

Part 2：如何评价区间估计

最先接触过的，用一个区间来表示估计范围的，应该是高中所学的\(3\sigma\)原则：正态分布的取值落在\([\mu-3\sigma,\mu+3\sigma]\)以外的几率小于0.01。虽然这并不是区间估计（务必注意这不是区间估计），但咱们也能据此来感觉区间估计的两大评价指标：精度、可靠度。统计

精度用区间估计的平均长度来度量。为何要加入“平均”二字呢？由于区间估计的上界和下界都是统计量，而统计量自身具备两重性，故区间长度\(\hat g_2(\boldsymbol{X})-\hat g_1(\boldsymbol{X})\)也是一个随机变量，其平均长度就是di

\[\mathbb{E}[\hat g_2(\boldsymbol{X})-\hat g_1(\boldsymbol{X})]. \]

可靠度指的是待估参数\(\theta\)被包含在区间\([\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]\)内的可能性，其量度不像精度那么容易度量，这里须要引入置信水平（置信度）与置信系数的概念。置信水平指的是\([\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]\)包含待估参数\(\theta\)的几率，通常说来这个几率可能与\(\theta\)有关，在这种状况下，置信系数则是置信水平在\(\theta\in\Theta\)上的下确界。这样，即便置信水平是一个关于\(\theta\)的函数，置信系数也是一个\([0,1]\)之间的常数，不过咱们以后常常会取置信水平自己就是常数的区间做为待估参数的区间估计。

显然，精度和可靠度是相互制约的，若是样本容量必定，精度低了可靠度就高，为使置信系数达到\(1\)，这个区间估计通常是\(\mathbb{R}\)。咱们应当在精度和可靠度中相互权衡，来挑选合适的置信区间，为此，常使用Neyman建议的方案：在保证置信系数达到指定要求的前提下，尽量提升精度。即，首先咱们须要对区间估计有一个预期的表现，在这个预期表现之下选择平均长度最小的区间估计。固然，预期的表现要合理，不能要一个\(100\%\)包含待估参数的蛮横要求，这样区间估计就会很尴尬。现行的教材通常要求这个置信系数是\(95\%\)，将其通常化，能够提出以下置信区间的概念。

设\([\hat \theta_1,\hat \theta_2]\)是参数\(\theta\)的一个区间估计，其中\(\hat\theta_1=\hat\theta_1(\boldsymbol{X})\)，\(\hat\theta_2=\hat\theta_2(\boldsymbol{X})\)。若对于给定的\(0<\alpha<1\)（常取\(\alpha=0.05\)），有

\[\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])\ge 1-\alpha,\quad \forall\theta\in\Theta, \]

则称\([\hat\theta_1,\hat\theta_2]\)是\(\hat\theta\)的置信水平为\(1-\alpha\)的置信区间，该区间的置信系数就是\(\inf\limits_{\theta\in\Theta}\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])\)。

我想，大多数读者应该此前已经据说过置信区间这个名词，只是不知道其官方定义是什么。注意到，置信区间的定义是基于Neyman建议的，即首要条件是保证置信水平，尽量让精度小（不必定须要）。若是\(\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])\)在\(\theta\in\Theta\)上是一个常数，则置信度就是置信系数，这也是咱们更常常处理的状况。

对于单侧区间估计的情形，咱们称知足\(\mathbb{P}(\theta\in[\hat\theta_l,\infty))\ge 1-\alpha\)或\(\mathbb{P}(\theta\in(-\infty,\hat\theta_u])\)的单侧置信区间端点\(\hat\theta_l,\hat\theta_u\)为置信水平为\(1-\alpha\)的置信限。也就是说，“限”即上限或下限，描述的是单侧的置信区间。

这样，咱们就把区间估计部分的基本概念给阐释了一遍，但至于如何寻找区间估计，相信大多数读者依然不明白。这没有关系，阅读以上的部分，你只要明白Neyman的建议，以及什么叫置信区间、置信水平便可。

Part 3：\(t\)分布和\(F\)分布

在开始区间估计的寻找以前，咱们须要介绍正态分布的另外两个衍生分布：\(t\)分布和\(F\)分布，它们在寻找正态分布区间估计的过程当中会发挥重要的做用。

首先是\(t\)分布。设随机变量\(X\sim N(0,1)\)，\(Y\sim \chi^2(n)\)，且\(X\)和\(Y\)相互独立，则

\[T\xlongequal{def}\frac{X}{\sqrt{Y/n}}\sim t(n), \]

其中\(n\)为自由度。形式上，分子是标准正态随机变量，分母是\(\chi^2\)变量除以其自由度并开根号，\(t\)分布的自由度即\(\chi^2\)分布的自由度。

书上提到，\(t(n)\)分布的密度函数是

\[p_n(x)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}}\left(1+\frac{x^2}{n} \right)^{-\frac{n+1}{2}}, \]

这不是一个须要记忆的结论，证实也比较复杂，故在此不给出。

须要注意的是\(t\)分布的一些性质：

\(t\)分布关于原点对称，即其密度函数是偶函数。
随着自由度\(n\)增大，\(t(n)\)分布趋近于标准正态分布。
若\(T\sim t(n)\)，则\(\mathbb{E}(T^r)\)只有当\(r<n\)时存在。特别当\(n\ge 2\)时，

\[\mathbb{E}(T)=0, \]
当\(n\ge 3\)时，

\[\mathbb{D}(T)=\frac{n}{n-2}. \]
显然其矩特征随着\(n\)增大，也趋近于\(N(0,1)\)的矩特征。
自由度为\(1\)的\(t(1)\)分布就是柯西分布，密度为

\[p(x)=\frac{1}{\pi(1+x^2)}. \]
其任意阶矩不存在，经常使用于构造反例。

接下来介绍\(F\)分布。设随机变量\(X\sim \chi^2(m)\)，\(Y\sim \chi^2(n)\)，且\(X,Y\)相互独立，则

\[F\xlongequal{def}\frac{X/m}{Y/n}\sim F(m,n), \]

其中\(m,n\)称为\(F\)分布的自由度，分子的自由度在前，分母的自由度在后。一样，\(F\)分布具备一些经常使用的性质：

若\(Z\sim F(m,n)\)，则\(1/Z\sim F(n,m)\)，这由定义显然。
若\(t\sim t(n)\)，则\(t^2\sim F(1,n)\)，这由定义显然。

这样，结合以前已经介绍过的\(\chi^2\)分布，咱们就将正态分布的三大衍生分布介绍完毕了，尽管它们各自具备必定的性质，但其构造方式是最重要的。这三大分布，均可以由正态分布随机变量构造而成（\(\chi^2\)变量也能够视为正态变量），结合正态分布所自带的变换性质，能够呈现出各类各样的变化。

好比，若是\(X_1,\cdots,X_n\)是从正态整体\(N(\mu,\sigma^2)\)所抽取的简单随机样本，这里\(\mu,\sigma^2\)未知，因此\(\bar X,S^2\)的分布中确定都带有未知参数，若是咱们想消除未知参数的影响，能够参考正态分布的标准化过程：\((U-\mu)/\sigma\sim N(0,1)\)构造出不含未知参数的统计量。

首先，因为\(\bar X\sim N(\mu,\sigma^2/n)\)，因此

\[\frac{\sqrt{n}(\bar X-\mu)}{\sigma}\sim N(0,1), \]

又因为

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1), \]

因此有

\[\frac{\frac{\sqrt{n}(\bar X-\mu)}{\sigma}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}}=\frac{\sqrt{n}(\bar X-\mu)}{S}\sim t(n-1). \]

神奇的是，未知参数\(\sigma\)被消除了，因此咱们获得了一个具备肯定分布的统计量。这个方法，在下一篇文章中将发挥重要的做用，其余的变换咱们也之后再展开。

本文的前两个部分是区间估计的基本知识介绍，第三部分是正态分布的另外两个衍生分布，在下一篇文章中，咱们将探索构造区间估计的方法。