参数估计(尤为点估计)是数理统计中的基本问题,在此基础上还须要有进一步的应用,其中比较常见就是问题就是所谓“假设检验”。具体来讲,经过样本能够知道原分布的一些信息,以后能够利用这些信息进行一些决策,而其中一类决策依赖于对分布(参数)的硬性“假设”。假设检验问题很是广泛,所以它和参数估计并称为数理统计的两大问题。但这里我仍是想强调,假设检验问题自己就是对参数估计的应用,在强调它们的差别的同时,也要注意二者之间的联系。函数
关于参数的假设通常是关于参数的(不)等式\(H_0\)(有时也把符合条件的全体参数记做\(H_0\)),它被称为统计假设。相应地,其逆条件被记做\(H_1\),它被称为对立假设,这时的原条件也可称为原假设。为了判断假设是否成立,须要从样本(统计量)中获取信息。但要注意,几率模型中能获得的仅有几率信息,在决策模型中还必须有个奖惩函数,奖惩和几率相结合才能做出符合实际的决策(这是我捏造的词,高等数理统计中会有完整的理论体系,这里不讨论)。学习
初等教材上不会强调奖惩信息在模型的中的地位,这会致使决策的“惟几率论”错误。咱们屡次强调,几率统计只负责其自身逻辑,实际问题中并不只是统计模型,还须要看清问题的所有。奖惩信息的制定与具体问题有关,可能另有理论支持,也可能只需经验值或粗略设定,但这已经和几率统计无关。故下面的论述中,我只是会不断提醒,但不能深刻讨论如何制定奖惩信息。设计
咱们要面对的假设通常是\(\theta=\theta_0,\theta>\theta_0,\theta\in[\theta_1,\theta_2]\)之类的(不)等式,为了验证这个假设是否成立,须要制定一个只与样本有关的断定准则\(\varPsi(X_1,\cdots,X_n)\)。它通常也是一个(不)等式,理论上这个准则中应当含有奖惩信息,而这个断定过程被称为假设检验。blog
这里先用贝叶斯方法来讲明全部概念。前面已经知道,贝叶斯方法给出参数的所有已知信息,它以统一而简洁的形式给出了参数的分布。在获得样本信息后,经过固定的计算便获得了参数\(\theta\)的分布\(p(x)\)。为了检验假设\(H_0\),直觉上选择的准则\(\varPsi\)应当是:\(p(x)\)在\(H_0\)上的积分大于\(1/2\) 。对于\(\theta=\theta_0\)这样的假设,则应当改写成适当的区间\(\theta\in[\theta_0-\varepsilon,\theta_0+\varepsilon]\),这样才更符合实际。排序
但这种不带奖惩信息的判断准则\(\varPsi\)在实际中很难使用,还须要根据状况选定一个奖惩函数\(h(\theta)\),以式(1)做为假设成立的判断准则。奖惩函数的选择必定是根据现实需求的,若是更但愿知足\(H_0\)的参数不被淘汰,则\(p(\theta)\)在\(H_0\)上选取偏大的奖励;若是更但愿知足\(H_1\)的参数不被选中,则\(p(\theta)\)在\(H_1\)上选取偏大的惩罚(负值)。而对\(\theta=\theta_0\)这样的假设,只需在\(\theta_0\)周围设定适当的奖励便可。回过头去看,直觉上的\(1/2\)准则其实就是取式(2)的奖惩函数。事件
\[\varPsi:\;\int h(\theta)p(\theta)\,\text{d}\theta>0\tag{1}\]数学
\[h(\theta)=\left\{\begin{matrix}1,&\theta\in H_0\\-1,&\theta\in H_1\end{matrix}\right.\tag{2}\]it
最后来分析一下正态分布\(N(\mu,\sigma)\)(\(\mu,\sigma\)均未知)中\(\mu\)的后验分布,先验分布取广义密度函数\(f(\mu,\sigma)=\sigma^{-1}\)(均值取均分、方差取\(\sigma^{-1}\))。利用贝叶斯法计算\(\mu\)的后验分布(计算过程当中只需关注变量部分,证实细节请参考教材),则能够获得式(3)的结论,它和点估计中的结论殊路同归,但本质意义不一样。基础
\[\dfrac{\sqrt{n}(\mu-\bar{X})}{S}\;\sim\;t_{n-1}\tag{3}\]变量
鉴于贝叶斯方法的故有缺陷(先验几率难以肯定),咱们仍是要从直观的角度从新分析一遍假设检验的问题,上面提到的大部分概念和思想仍然有用。如今不能再把参数\(\theta\)当作一个随机变量,但仍然能够在每个\(\theta\)下来评估检验\(\varPsi\)。具体来讲,对于事先制定的检验\(\varPsi\),能够计算出在不一样\(\theta\)下检验为否认的几率\(\beta_{\varPsi}(\theta)\),它被称为功效函数。若是检验\(\varPsi\)使得功效函数知足式(4),它便称为水平\(\alpha\)的检验。
\[\beta_{\varPsi}(\theta)\geqslant\alpha,\;\;(\theta\in H_0)\tag{4}\]
对于分析问题而言,功效函数的做用和后验几率是同样的,不一样的是,它不依赖于先验几率。有两点须要说明,一个是功效函数为何采用的是否认的几率?我我的以为仍是确定的几率更方便使用,也许是为了能直接查表吧。另外一个是教材中一样没有引入奖惩函数,而是默认为一些经常使用场景(检验水平的概念就是只强调\(H_0\)的接收率),我以为会形成学习者的困惑。带着奖惩函数的概念,教材上一些策略的描述也许会更加清晰。
下面从最简单的场景讨论起,以此体验以上概念的含义,以及检验的具体方法。首先对正态分布\(N(\mu,\sigma^2)\),假定\(\sigma\)已知,要想对\(\mu\geqslant\mu_0\)进行检验。最容易想到的检验方法天然是当\(\bar{X}\geqslant C\)时接受假设,其中常数\(C\)待定。先来计算检验的功效函数,前面已知\(\bar{X}\)知足分布\(N(\mu,\sigma^2/n)\),功效函数既是\(\bar{X}<C\)的几率。
在这里咱们再次碰到不等式的几率问题,天然地联想到上篇的枢轴变量法。不可贵到功效函数为\(\varPhi(\sqrt{n}(C-\mu)/\sigma)\),能够画出它的图像大体以下。为了获得检验水平\(\alpha\),只需\(C\leqslant\mu_0-\sigma u(\alpha)/\sqrt{n}\),最终获得式(5)的检验。但从图中看出,在保证检验水平\(\alpha\)的条件下,要使得\(H_1\)的功效函数(一致地)足够大是不可能的,尤为在临界点\(\mu_0\)处。因此原假设和对立假设都达到必定水平的检验每每是不存在的,这就必须根据实际问题进行取舍,粗略的奖惩函数是必须的。
\[\varPsi:\;\dfrac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma}\geqslant -u(\alpha)\tag{5}\]
以上咱们给出了寻找检验方法的步骤:先根据假设的特色肯定检验的大体形式(带参数),而后算出功效函数,最后肯定参数以知足检验水平。有时这个过程当中的计算会比较繁琐,但式(5)能够给咱们一些启发,它在\(\mu=\mu_0\)时取等号且有很直观的意义。先用枢轴变量直接在临界点找到知足精度的等式,而后根据检验的大体形式把等式改成不等式,最后再回头验证功效函数的局部单调性。当\(\sigma\)未知时,按照这个思路只需把式(5)中的\(u(\alpha)\)换成\(t_n(\alpha)\)便可,但还要注意证实功效函数的单调性。
对于假设\(\mu\leqslant\mu_0\)和\(\mu=\mu_0\),也有相似的结论。关于正态分布,比较常见的假设还有两个分布均值的比较\(\mu_1-\mu_2\geqslant 0\),以及不太经常使用的方差假设,包括单分布的方差假设\(\sigma^2\geqslant \sigma_0^2\),和两个分布方差比的假设\(\sigma_1^2/\sigma_2^2\geqslant c\)。关于它们的枢轴变量都已经在上一篇介绍过,请自行写出检验方法和功效函数。
如今再来聊聊正态分布以外的常见分布,它们各自有本身的形式特色,不必定能用枢轴变量法简单求解。对于实在难办的问题,若是样本足够大,能够借助中心极限定理,这也是为何咱们要弄清楚正态分布的假设检验。
对于离散分布,更是不能使用枢轴变量,边界值只能取近似的整数。二项分布的计算比较麻烦,最好是借助极限定理近似。对于泊松分布,因为可加性,只需进行一次采样(时长大一点会较好)。计算临界值值会比较麻烦,但利用其形式特色,容易有式(6)成立(\(K_n(x)\)是\(\chi_n^2\)的分布函数),这样经过查表便可肯定\(k\)的值。
\[\sum\limits_{i=0}^k\dfrac{\lambda^ie^{-\lambda}}{i!}=\int_{\lambda}^{\infty}\dfrac{t^ke^{-t}}{k!}\,\text{d}t=1-K_{2k+2}(2\lambda)\tag{6}\]
其它连续分布中,指数分布恰巧有枢轴变量\(2\lambda X\sim\chi^2\),所以参数的假设能够利用\(2n\lambda\bar{X}\sim\chi_{2n}^2\)来检验。但注意到指数分布本质是一个时间分布,它有无限大的可能值,这对实际采样形成了没法控制的困难。现实中只能限定试验时间或限定事件发生次数,其中前者比后者更可控,但精度上也会损失更多。这样的方法称为截尾法,能够假定\(n\)个独立试验同时进行,具体分为定时截尾法和定量截尾法。
先来看简单一点的定量截尾法,就是当第\(r\)个事件发生时中止试验,检验时必须充分利用已有的试验数据,所以对已发生的事件都要记录下时间。先来看一个简单的结论,记\(Y\)为\(X_i\)的最小值,它是一个随机变量。能够算得\(Y\)的分布函数是\(1-e^{-\lambda nx}\),从而有式(7)成立。
\[Y=\min\{X_i\}\;\Rightarrow\;2n\lambda Y\sim\chi_2^2\tag{7}\]
若是把每一个试验的耗时排序成下图,\(nY\)即是图中的阴影部分之和,因为指数分布的无记忆性,接下来的\(n-1\)个事件能够进行一样的讨论。观察在时间\(Z\)中止,讨论获得了\(r\)个独立的\(\chi_2^2\)分布。设虚线\(Z\)如下的时间和为\(T\),结合式(7)有式(8)成立,这就是咱们要的枢轴变量!
\[T=X_1+\cdots+X_r+(n-r)X_r\;\Rightarrow\;2\lambda T\sim\chi_{2r}^2\tag{8}\]
定时截尾法更便于操做,但却没有式(8)同样的漂亮结论,但能够证实近似地有\(2\lambda T\sim\chi_{2r+1}^2\),其中\(r\)为规定时间内发生的事件数。最后提一下,两个截尾法中的\(r\)越接近\(n\),检验的精度越高,所以在设计实验时,须要根据经验或观察设定合理的阈值。另外还请注意,结论(7)(8)也可用于参数估计。
大部分时候,检验方法只关心\(H_0\)区域的检验级别,但当要比较不一样检验优劣的时候,\(H_1\)区域的否认率便称成为重要的参考。若是在全部\(\alpha\)级别的检验中,存在检验\(\varPhi_0\)对比任何检验\(\varPhi\)都知足式(9),\(\varPhi_0\)便称为一致最优检验。和MVU估计同样,大部分场合下一致最优检验并不存在,即便存在也很难找到。
\[\beta_{\varPhi_0}(\theta)\geqslant\beta_{\varPhi}(\theta),\;\;(\theta\in H_1)\tag{9}\]
但对于那些常见的假设问题,却恰巧能够找到一直最优检验,下面来讨论这个问题(仅讨论连续分布,离散相似)。先来看最简单的场景,咱们面临的问题是要在两个分布\(F_0,F_1\)中二选一(也就是说\(\theta\)仅有两个值供选择),检验知足必定条件则断定为服从分布\(F_0\)(这是原假设\(H_0\)),不然服从分布\(F_1\)(对立假设\(H_1\))。如下记\(n\)次独立试验的联合样本空间为\(\Omega\),两个分布生成的联合密度函数分别是\(g_0(x),g_1(x)\)。
水平为\(\alpha\)的检验,本质上就是找\(\Omega\)上知足\(\int_A g_0(x)\,\text{d}x\leqslant\alpha\)的子集\(A\),当样本落在\(A\)中则否认假设。首先容易看出知足\(\int_A g_0(x)\,\text{d}x=\alpha\)的\(A\)老是更优的检验,而全部这样的\(A\)中必然有使得\(\int_A g_1(x)\,\text{d}x\)达到最大值的\(Q\)。更具体地,用取代比较法不难证实,\(Q\)应当对某个常数\(C\)知足式(10)左,结合式(10)右便能肯定\(C\),该结论称为奈-皮基本引理。
\[Q=\{\,y\,|\dfrac{g_1(y)}{g_0(y)}>C\,\};\;\;\int_Q g_0(x)\,\text{d}x=\alpha\tag{10}\]
如今利用以上引理讨论一些分布的单边假设,所谓单边假设就是\(\theta\leqslant\theta_0,\theta\geqslant\theta_0\)形式的假设。为了从引理逐步扩展,先从\(H_0,H_1\)中分别任选\(\theta=a,\theta=b\)作为新的假设和对立假设。根据式(10)计算正态分布(方差已知)、二项分布、泊松分布、指数分布,不难发现获得的一致最优检验都有形式\(\bar{X}\leqslant C\)或\(\bar{X}\geqslant C\)。
具体还能发现这个检验与\(b\)的选取无关,所以若是把对立假设扩展为整个\(H_1\),获得的检验仍然是一致最优的。另外还容易证实,这样的单边检验的功效函数在\(H_0\)上是单调的,所以必须取\(a=\theta_0\),才能在\(H_0\)上都达到水平\(\alpha\)。至此其实咱们已经证实了,对于上面列举的几个分布,单边假设的一致最优检验是存在的,且具备形式\(\bar{X}\leqslant C\)或\(\bar{X}\geqslant C\)。
参数检验仍是把注意力放在了参数自己,在有些场合下咱们还需关注整个分布。具体说就是针对一个分布的假设\(H_0\),须要根据观察值去断定他是否成立,这样的问题被称为拟合优度检验。因为试验的随机性,检验自己必然是一种几率评估,而且与分布和样本数都有关系。先来看最简单的有限离散状况,假设几率分布是\(P(a_i)=p_i\),试验\(n\)次中事件\(a_i\)发生了\(n_i\)次。最简单的偏差度量方法就是看平方和\(S=\sum\limits_{i=1}^k(\dfrac{n_i}{n}-p_i)^2\),若是假设成立,\(S\)是一个接近于\(0\)的随机变量(尤为\(n\)很大时),这很是不利于估计检验水平。有了前面的训练,你大概已经知道,咱们须要找一个枢轴变量,而且它能包含\(S\)的良好形式。
其实根据中心极限定理,\(\dfrac{(n_i-np_i)^2}{np_i(1-p_i)}\)的极限服从\(\chi^2\)分布,这就找到了枢轴变量该有的形式。能够证实式(11)成立,其中自由度\(k-1\)与实际参数个数相同,\(Z\)被称为拟合优度\(\chi^2\)统计量。显然当假设不成立时,\(Z\)将很是大,故假设检验的方法是,当\(Z\leqslant\chi_{k-1}^2(\alpha)\)时接受假设。检验水平是最根本的度量,它能把随机形成的影响用最直观的数值表达出来,从而避免了直觉带来的错觉。样本数\(n\)较大时,看似符合分布的实验值都有可能被检验否认,反之样本数较小时,看似很不符合假设的实验值也可能被确定,这即是数学的一大功效。
\[Z=\sum\limits_{i=1}^k\dfrac{(n_i-np_i)^2}{np_i}\sim \chi_{k-1}^2\tag{11}\]
现实中还有一种关于分布的假设,只须要分布知足必定条件便可,也就是说假设的是一组分布族,表达出来的分布会含有\(r\)个参数。对于这样的检验问题,不妨先经过最大似然法求得一个具体分布,而后在此分布上计算拟合优度。能够证实,这时的\(\chi^2\)统计量近似服从\(\chi_{k-r-1}^2\),其中点估计又损耗掉\(r\)个自由度。
关于分布族的检验中有一类常见问题,就是判断两个随机变量\(X,Y\)是否独立,在离散状况就是验证\(P(XY)=P(X)P(Y)\)。试验中统计事件\(x_iy_j\)发生的次数\(n_{ij}\),它们组成的矩阵通常称为列联表。设\(X,Y\)分别有\(r,s\)个事件,则显然其几率\(p_1,\cdots,p_r,q_1,\cdots,q_s\)是假设分布的参数,其有效个数是\(r+s-2\)。联合事件\(x_iy_i\)的个数是\(rs\),故\(\chi^2\)统计量的自由度应该是\((r-1)(s-1)\)。
如下记\(n_{i*}=\sum\limits_{j=1}^sn_{ij},\;n_{*j}=\sum\limits_{i=1}^rn_{ij}\),经过最大似然法不难求得\(\hat{p}_i=\dfrac{n_{i*}}{n},\;\hat{q}_j=\dfrac{n_{*j}}{n}\),最后求得拟合优度的统计量\(Z\)(式(12))。
\[Z=\sum\limits_{i=1}^r\sum\limits_{j=1}^s\dfrac{(nn_{ij}-n_{i*}n_{*j})^2}{nn_{i*}n_{*j}}\;\sim\;\chi_{(r-1)(s-1)}^2\tag{12}\]
最后对于无穷离散分布和连续分布,能够经过值的合并获得有限个值域。好比无穷离散分布能够将大于某必定值的全部事件合并,连续分布则是把随机变量划分红有限个区间。为了保证精度,每一个区间的样本数不能过小,故区间应根据样本的大体分布和数量来划分,在区间数尽可能大的基础上,还要保证每一个区间的样本数足够大。对于有\(r\)个参数的分布族,若样本分红了\(k\)个区间,拟合优度统计量一样近似服从\(\chi_{k-r-1}^2\)。最后还要提示,最大似然法对公式(12)是必须的,但在难于计算的场合,用通常的点估计差距不会很大。