极大似然估计的理解

先大概讲下:极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过极大似然估计来获取上述假设中的正态分布的均值与方差。
极大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

举个别人博客中的例子,假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?很多人马上就有答案了:70%。而其后的理论支撑是什么呢?
我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜 色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的概率是 P(Data|M) ,这里 Data 是所有的数据, M 是所给出的模型,表示每次抽出来的球是白色的概率为 p 。如果第一抽样的结果记为 x1 ,第二抽样的结果记为 x2... 那么 Data=(x1,x2,,x100) 。这样,

                P(Data|M)=P(x1,x2,...,x100|M)=P(x1|M)P(x2|M)P(x100|M)=p70(1p)30.
    
那么 p 在取什么值的时候, P(Data|M) 的值最大呢?将 p70(1p)30 p 求导,并其等于零。
     70p69(1p)30p7030(1p)29=0
解方程可以得到: p=0.7

注意:极大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率。这点与贝叶斯估计区别。

概率和似然

下面是通俗的理解:
举一个经典而又简单的例子,掷硬币:现在我们讨论的是似然,但为了避免和我们想讨论的概率混淆,我们把硬币的“正面”出现的概率称为硬币的参数。
概率:有了硬币的参数,就可以去推测抛硬币的各种情况的可能性,这称为概率。比如就可以推测扔10次硬币,出现5次“正面”朝上的概率。
似然:我们对硬币的参数并不清楚,要通过抛硬币的情况去推测硬币的参数,这称为似然。简单讲就是根据现有的事实或者样本结果反过来推断参数。
极大似然估计
所谓最大似然估计,就是假设硬币的参数,然后计算实验结果的概率是多少,概率越大的,那么这个假设的参数就越可能是真的。所以似然是这样一个·过程,在有似然函数的前提下,似然是推测参数的分布,而求极大似然的问题就成了求似然函数的极值。
在试验过程中:

  • 随着实验次数的增多,可选的参数的分布越集中。越多的实验结果,让参数越来越明确。

数学名词:
一次实验:抛硬币10次,出现6次“花”,就是一次实验。
二项分布:抛硬币10次,出现6次“花”的概率为0.25,出现5次“花”的概率为0.21,所有的可能的结果(比如抛硬币10次,出现11次“花”,这就是不可能)的概率,放在一起就是二项分布
而极大似然估计真正的用途是针对多次实验。。。
通过多次实验进行最大似然估计
上面的二项分布用通俗点的话来说,就是描述了抛10次硬币的结果的概率,其中“花”出现的概率为 θ
针对上面的二项分布,现在进行6次实验(也就是总共6次,每次抛10次硬币)
我们用 x1,x2,,xn 表示每次实验结果,因为每次实验都是独立的,所以似然函数可以写作(得到这个似然函数很简单,独立事件的联合概率,直接相乘就可以得到):
L(θ)=f(x1θ)f(x2θ)f(xnθ)
f(xnθ) 表示在同一个参数下的实验结果,也可以认为是条件概率。
下面是对实验的图像化:

这里写图片描述

图中的{3,5,4,2,5,4}是在参数 θ=0.37 的时候的6次实验结果,第一次的结果是出现3次“花”,第二次的结果是出现5次“花”,以此类推。而 θ 是每个硬币出现“花的概率”。从上图可以看出推测的 θ 值和给出的值很接近,之所以有差别是因为实验本身具有二项随机性,相信试验次数越多,推测会越准确。

以上就是对极大似然估计的一些理解,具体的参数计算方法就很简单了。

参考: http://www.matongxue.com/madocs/447.html#/madoc