对整体参数进行估计的方式多种多样,为了评判估计量的优劣,咱们须要借助一些评选标准。微信
我以为参数估计老是人为地设计各类门坎,里面参杂着各类符号,一下子是X,一下子是x;一下子是θ,一下子是θ(X);还有诸如“整体参数”、“待估计参数”这类名词,到底是几个意思?函数
有必要先理清这些符号。工具
咱们用全国18~50岁的男性身高为例,全部18~50岁的男性是整体。在几率统计中,当咱们说到整体,就是指一个具备特定几率分布的随机变量,这个随机变量用X表示,X符合某某分布。n表示整体的数量,假设这些男性有3亿,那么n就等于3亿。在作统计的时候确定不能普查全部人,这样成本也过高了,所以才有抽样。固然抽样也有多种形式,好比均匀抽样、拒绝抽样等,这是另外的话题,在数据分析专栏中将陆续展开。学习
如今调查了100万个符合条件的男性,这些男性就构成了“总体中的一个样本”,用X1, X2, …, Xm表示,Xi表示样本中的第i个男性,m是样本的容量,m等于100万。样本中的每一个男性都有特定的身高,是一个具体的数值,这个值用小写的x表示,x10 = 176cm表示样本中的第10个数据的值是176cm,此时X10 = x10。这有点相似于P(X=x)的意思,X表示随机变量自己,x表示某个特定的数值。优化
值得注意的是,若是用X1, X2, …, Xm表示样本,则强调样本是随机的,是理论上的、还没有诞生的样本,样本中的每一个数据都是一个随机变量;若是用x1, x2, …, xm表示样本,则强调样本中的随机变量已经有了特定的取值,是已经拥有的样本。spa
此外,n的值不必定很大,若是调查某个特定班级的平均身高,那么n的值就只是这个班级的学生数,好比n=60。n也不必定是个肯定的值,好比从建国到如今全国人民一共消费了多少斤啤酒,没有具体的数,只知道这个数大到没边。设计
如今咱们知道18~50岁的男性身高符合某个均值为μ,方差为σ2的正态分布X~N(μ, σ2),μ和σ2称为“整体的参数”,正是这两个值决定了分布的具体形态,用大Θ表示整体参数的集合。整体参数不止一个,这里的μ和σ2都是整体的参数。θ是整体中的某一个参数,它能够表明μ,也能够表明σ2,有点变量的意思,可能用x比用θ更好理解,可是x已经被占用了。此外,用表示样本的均值,用S2表示样本的方差。orm
如今θ的具体值是多少不知道,须要根据样本X1, X2, …, Xm估计整体参数θ,具体估计量用表示。
表示
是由具体的样本X1, X2, …, Xm估计出来的,
仅仅是为了强调这一点,至于怎么估计是另外一回事。这也有点相似于y = y(x),第一个y是个具体的数值,这个数值是由x决定的,第二个y是一个映射关系,至因而什么映射关系是另外一回事。有时候也把m个样本记做X = {X1, X2, …, Xm},所以有了
,若是用θ表示μ,就有了
。这里的X再也不是整体,而是来自于整体中的样本,至于X究竟是整体仍是样本,须要根据上下文肯定。blog
已知整体的均值是μ,方差是σ2>0,可是不知道两者的具体数值,做为补偿,咱们拥有整体中m个数据样本,X1, X2, ……,Xm。如今想要经过这些样本估计整体的几率分布模型,即经过样本估计μ和σ2的具体数值。get
已知整体有指望和方差两个数字特征,但不知道具体值,这比直接说啥也不知道强不了多少。
假设咱们已经使用直方图之类的工具分析过样本,或直接咨询过领域内的相关专家,得知整体应当符合正态分布,X~N(μ, σ2)。如今咱们能够用多种方法估计μ和σ2?
点估计和连续性修正(几率统计17)中的介绍,样本矩的估计量是:
一维正态分布的最大似然估计(几率11)中,最大似然估计也能获得相似的结论:
当m很大时,1/m和1/(m-1)的差距也很小,能够认为矩估计和最大似然估计的结论相等。咱们可否所以得出一个结论,说两种估计法在任何分布下获得的结论都相同?
仍是估计整体的均值和方差,此次从样本的分析中得知,整体可能符合X~[a, b]的均匀分布。
在再看大数定律(几率统计18).中咱们已经知道均匀分布的密度函数,从而求得均匀分布的均值和方差:
使用矩估计求得样本的均值和方差时,咱们将认为样本矩等于整体矩,从而获得一个关于a和b的方程组,进而求得a和b的矩估计量:
这里也能够看出,矩估计的优势就是简单,无论整体服从什么分布,样本矩的计算方法都同样。
如今来看均匀分布下样本的最大似然估计。
用xmin和xmax表示样本值中最小的和最大的,对于X~[a, b]来讲,全部样本的取值都在a,b之间,即xmin ≥ a,xmax ≤ b,似然函数是:
以后的目标是根据样本找到L(x;a,b)最大时a,b的取值:
这个结果和矩估计明显不一样。
如今的问题是,咱们分不出这两个估计量的优劣。这就是咱们要面对的新问题。
咱们用 和
表示两种方案的估计量。对于不一样的估计量,与真实值的差偏差也不一样,没法仅凭一个数值来评估估计量,而是使用一条曲线:
对于某些估计而言 ,对于另一些则可能相反。这就比如两我的的考试成绩,甲的语文成绩比较好,而乙的数学成绩更优秀。可否找出一个全优的学生呢?也就是对于总体中的所有参数,咱们都但愿估得最佳结果,以使得根据样本估计的分布接近总体分布。这是个美好的愿望,随着待估计参数的增长,找到全优学生的难度也急剧增大。所以为了找出最优估计量,咱们必须添加一些额外的评判规则。这就涉及到如何评估估计量的问题。较为经常使用的三个标准是无偏性、有效性和相合性。
X1, X2, …, Xm是来自于整体中的样本,θ是整体分布的参数,θ∈Θ,根据样本能够获得θ的估计量:
若是的数学指望存在,且:
若是对于总体中的任意θ,上式都成立,则称是θ的无偏估计量。
这究竟是啥意思?参数为何能有指望?
首先须要回顾第一节的内容,清楚地了解这些符号的真正含义。
设整体X的均值为μ,方差是σ2>0,它们都是总体分布的参数,且都是待估计的未知参数。既然μ和σ2都是和整体分布有关的参数,它们天然均可以用θ表示,做为估计量的也就表明了
。在这个例子中,“
是θ的无偏估计”意味着:
若是使用矩估计,则根据再看大数定律(几率统计18)中的内容,样本均值的指望与方差是:
这代表样本均值是总体均值的无偏估计。
样本的方差是:
这里之因此用Xi而不是xi,是为了强调样本的随机性,能够简单地理解为计划抽取一个随机样本,但尚未真正开始抽取。
如今看看E[S2]是多少。
根据方差的性质:
对于样本中的任意一个随机变量来讲,方差和指望都相等:
此外:
最终:
上面的结论代表,样本方差S2也是整体方差的无偏估计,这也附带说明了样本方差的系数是1/(m-1)的缘由,若是取1/m,则估计量没法确保无偏性。
从这个例子中也看出,不管整体符合什么分布,样本均值都是总体均值的无偏估计,样本方差也都是整体方差的无偏估计。
样本X1, X2, …, Xm是随机的,所以根据这些样本得出的估计量 也是随机的,咱们已经屡次重申过这一点。既然
是随机的,那么一个天然的结论是:根据样本的不一样,有些估计量可能偏大,有些可能偏小。反复将这一估计量使用屡次,就“平均”来讲其误差为零。
在科学技术中称为以
做为θ估计的系统偏差。无偏估计的实际意义就是无系统偏差。
既然如此,是否意味着无偏估计必定好呢?一般来说是的,但也不尽然,好比下图中,有偏的甲明显更优于无偏的乙。
设整体X服从指数分布,几率密度为:
其中参数θ未知,X1, X2, …, Xm是来自X的样本,根据指数分布的性质:
所以样本均值是参数θ的无偏估计量。
然而估计量不止一种,下面的mZ也是θ的无偏估计量:
Z具备几率密度:
可见一个未知参数可能有不一样的无偏估计量。
同一个参数为何会出现不一样的无偏估计量呢?咱们能够想象一个场景:任何人均可以估计明天的天气,至因而否准确另当别论。一样是估计天气,气象局的天气预报显然更准确。但就无偏性来讲,普通人和天气预报的平均误差都为0。这就比如甲乙二人的射击比赛,甲的成绩明显高于乙,但无偏性却告诉咱们两者的成绩相同,这显然是荒谬的:
对于上图来讲,谁的成绩越接近靶心,谁的成绩就越好,这也正是有效性的基本逻辑。对于参数θ的两个无偏估计量,谁和θ更靠近,谁就越好。一种天然的方式是比较不一样的无偏估计量与θ之差的绝对值,可是绝对值不易处理,因而使用平方偏差法,这也是一种经常使用的较为简便的方式。若是对于总体中的任意θ,都有:
则称比
有效。
再次强调的是,都是随机值,所以才经过指望来去掉随机性,进而比较两者谁更有效:
另外一个值得关注的问题是,有效性还强调了对于任意θ∈Θ都成立。若是整体参数θ中包含两个待估计变量,只有当方案1的两个估计量所有优于方案2时,才能说方案1比方案2更有效。
对于上节的指数分布来讲:
所以比mZ更有效。
简单而言,若是当样本的容量增大时,估计量逐渐收敛于待估计参数的真实值,那么称是θ的相合估计量。
相合性是对一个估计量的基本要求,若是估计量不具备相合性,那么不管样本的容量有多大,都没法将参数估计得足够准确,这种估计已经有点近似于胡乱猜想。
有了评选标准以后,咱们就可使用一些优化策略,找出最优估计量。
无偏性为估计量加上了限制,有了这条限制,大多数不太好的估计量会被排除。通过无偏性的筛选后,再使用有效性求得的最优解称为最小方差无偏估计量(uniformly minimum variance unbiased estimate,UMVUE)。
尽管咱们能够经过减小候选项的方式找出最优解,但须要认清的事实是,找到任何状况下都适用的全能最优解绝非易事。既然如此,不妨改变策略,弱化最优解的定义,只要知足相合性和渐进有效性,就认为这个解是能够接受的。
渐进有效性:当样本容量n→∞时, 收敛于理论边界。
最大似然估计就是这种策略下最经常使用的方案。
在最小方差无偏估计中,咱们其实是想找到总分最优的估计量,但这种方法假设全部参数都是平等的,并无为参数分配恰当的权重。贝叶斯估计采用了另外一种思路应对这个问题。
不管最小方差无偏估计仍是最大似然估计,咱们都认为待估计参数θ是个肯定的值,好比1949年10月1日中华人民共和国成立,这是一个明确的日期。而在贝叶斯估计中,把θ也看做一个变量,所求的是θ的分布,也就是后验分布,若是后验分布较窄,则可信度较高,不然可信度较低。这相似于估计1949年10月1日中华人民共和国成立的几率是多少。贝叶斯估计的难点在于后验几率的计算较为复杂。关于更多先验和后验的问题将在后续章节陆续展开。
出处:微信公众号 "我是8位的"
本文以学习、研究和分享为主,如需转载,请联系本人,标明做者和出处,非商业用途!
扫描二维码关注做者公众号“我是8位的”