几率笔记10——矩估计和最大似然

时间 2019-11-06

标签几率笔记估计最大繁體版

原文原文链接

估计

　　生活中咱们常常估计一些数值，好比从家到学校要走多久？一颗大白菜大概多少斤？凭什么估计出具体数值呢？“估计”不是瞎猜，是根据已有数据计算的。从家到学校往返过屡次，手上也拿过无数颗白菜，此时咱们会凭借心中的尺度计算出一个大约的数值。函数

矩估计

　　矩估计，即矩估计法，也称“矩法估计”，是利用已有样本估计指望值的一种方法。学习

　　某个问题的数学指望客观存在的数学特征，是一个具体的数值，只是这个数值计算起来须要知道一些“已知条件”，而这些已知条件在现实世界中并不可知。幸运的是，咱们能够随时获得一些随机样本，利用这些样本估计一个数值：spa

　　戴帽子的等号表示估计。每一个x_i都是一个简单随机样本，而且咱们认为每一个样本都是等可能的，这其实是真实世界中一种不得已而为之的办法。在大数定律下的做用下，这个估计将会逐渐稳定，逼近真实值。3d

　　如今有甲、乙两个射击运动员站在咱们面前，他们的平均成绩并无贴在身上，如何判断他们的成绩呢？blog

　　一个符合经验的作法是让他们各打10枪，而后计算均值。好比x_i是甲第i枪的成绩，那么咱们对甲的估计是(x₁+x₂+…+x₁₀)/10。这里使用的是简单的均值，并无任何几率参与，缘由是咱们并不知道甲打出每一环的几率，只好认为是等权平均。数学指望是运动员的真实成绩，咱们在计算数学指望时须要已知运动员打出每一环的几率，然而“已知”在并不老是存在于现实世界，所以才退而求其次，使用“估计”。事件

独立同分布

　　独立同分布是几率论中的一个概念，即一组数据彼此间互不干扰，在现实环境里随机出现。get

　　独立已经介绍过屡次，射击比赛中的每一次射击都是独立的，不会由于本次的结果影响下一枪（抛开运动员心理状态的变化）。若是是从一堆白球中取一个黑球，随着白球的减小，下次取出黑球的几率会不断变大，则不能称每次的取球行为相互独立。数学

　　“同分布”的意思是每次都从特定的集合中取结果，好比掷骰子，每次都从1~6中取结果，则称样本是同分布。若是夹杂着几个12面的骰子，则样本不是同分布的。基础

未知的密度函数

　　在连续型变量中，只要咱们知道变量的概密度f(x)，就能够知道它的指望：变量

　　问题是f(x)一般是未知的，只知道它的模型，但不肯定具体的模型参数。咱们设这个未知的参数是θ，几率密度是f(x;θ)，表示f受到θ的影响，数学指望公式：

　　实际上θ是一个向量，例如：

　　示例 设连续型随机变量的几率密度是 ，求θ的矩估计量。

　　能够先计算出X的矩估计：

　　只有0<x<1的时候才能计算θ：

最大似然

　　最大似然估计方法（Maximum Likelihood Estimate，MLE）也称为最大概似估计或极大似然估计，是创建在最大似然原理的基础上的一种统计方法。

最大似然的含义

　　“似然”就是“可能性”的意思。咱们常常听到“最大似然”，这个词来源于实际，下图解释了它的含义。

　　A、B是两个如出一辙的箱子，A中有100个白球和1个黑球，B中有100个黑球和1个白球。如今从两个箱子中随意取出一个小球，结果是黑球，这个黑球是从哪一个箱子中取出的？第一反应是“最有可能从B中取出的”，这符合一般的经验。这里的“最有可能”就是“最大似然”的意思。

似然和似然函数

　　假设有一个独立同分布的数据集X，它的参数是θ。如今从X中取出一些样本x={ x₁, x₂, …, x_n}，P(x;θ)表示给定参数θ时，从X中取得这些样本x的可能性：

　　其中P(x;θ)相似于条件几率，但不等于条件几率，由于θ只是一个密度函数中的参数，并非一个事件。

　　假设如今θ有两个取值θ₁和θ₂，对于X中的一些样本x={ x₁, x₂, …, x_n}，若是P(x, θ₁ )> P(x, θ₂ )，就认为θ₁对产生x的可能性（似然性）要大于θ₂，P(x, θ₁ )和P(x, θ₂)就是似然，是对参数θ产生样本x的可能性的度量。

　　仍是以射击为例，假设按运动员的成绩由高到低分为一级、二级、三级，甲打出了10枪x={9,9,10,10,8,9,9.5,9.5,9.5,9}。运动员的级别至关于影响成绩的参数θ，当θ等于一级时，甲打出这个成绩的可能性较高。

　　如今须要根据给定样本x来求P(x; θ)，因为样本是已知的，将全部x的值代入上面的公式，将获得一个只有θ的式子，这个式子称为θ的似然函数，记为L(x;θ)或L(θ)：

最大似然估计

　　知道了似然函数，最大似然估计就很容易理解了：对于一个给定的样本集，挑选使得P(x;θ)可以达到最大时的参数做为θ的估计值，使得：

　　最终将求得θ的一个估值，在时，似然函数的值最大。

　　极值点一般是在导数等于0的点取得，所以能够经过下式求得θ：

　　若是θ是n维向量，则：

　　对于一些特殊的密度函数（好比指数密度函数）来讲，直接求dL/dθ太过繁琐，因为L与lnL在同一θ处取到极值，因此也常用：

示例

示例1

　　设样本的整体分布率为：P{X=x}=p^x(1-p)^1-x，求p在观察样本{ x₁, x₂, …, x_n }下的最大似然估计量。

　　这里只不过是把θ用p表示，如今咱们作一下替换，变成熟悉的形式：

　　L(θ)是θ的指数形式，换成对数更为简单：

　　根据对数的基本公式继续计算：

示例2

　　整体样本服从参数为λ的指数分布，{x₁, x₂, …, x_n}是观察样本，求λ的最大似然估计值。

　　整体样本的几率密度是：

　　做者：我是8位的

　　出处：http://www.cnblogs.com/bigmonkey

　　本文以学习、研究和分享为主，如需转载，请联系本人，标明做者和出处，非商业用途！

　　扫描二维码关注公做者众号“我是8位的”