B-几率论-极大似然估计

时间 2019-11-10

标签几率极大估计繁體版

原文原文链接

目录html

更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：http://www.javashuo.com/article/p-vozphyqp-cm.htmlpython

极大似然估计

1、最大似然原理

2、极大似然估计

极大似然估计是创建在最大似然原理的基础上的一个统计方法。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即“模型已定，参数未知”。经过观察若干次实验的结果，利用实验结果获得某个参数值可以使样本出现的几率最大，则称为极大似然估计。算法

简而言之，极大似然估计的目的是利用已知的样本结果，反推最有可能致使这样结果的参数值。数据结构

3、似然函数

假设一个样本集\(D\)的\(n\)个样本都是独立同分布的，而且该样本集为
\[ D={x_1,x_2,\ldots,x_n} \]
似然函数（likelihood function）：联合几率密度函数\(p(D|\theta)\)称为相对于\({x_1,x_2,\ldots,x_n}\)的\(\theta\)的似然函数。
\[ l(\theta) = p(D|\theta) = p(x_1,x_2,\ldots,x_n|\theta) = \prod_{i=1}^n p(x_i|\theta) \]机器学习

4、极大似然函数估计值

若是\(\hat{\theta}\)是\(\theta\)参数空间中能使似然函数\(l(\theta)\)最大的\(\theta\)值，则\(\hat{\theta}\)是最可能的参数值，那么\(\hat{\theta}\)是\(\theta\)的最大似然估计量，记做
\[ \hat{\theta} = d(x_1,x_2,\ldots,x_n) = d(D) \]
而且\(\hat{\theta}(x_1,x_2,\ldots,x_n)\)称做极大似然函数估计值。函数

5、求解极大似然函数

给出求解最大\(\theta\)值的公式
\[ \hat{\theta} = arg \underbrace{max}_\theta l(\theta) = arg \underbrace{max}_\theta \prod_{i=1}^n p(x_i|\theta) \]
为了方便计算，定义对数似然函数\(H(\theta)\)，即对似然函数求对数
\[ H(\theta) = \ln{l(\theta)} \]
所以求最大\(\theta\)值的公式变成了
\[ \hat{\theta} = arg \underbrace{max}_\theta H(\theta) = arg \underbrace{max}_\theta \ln{l(\theta)} = arg \underbrace{max}_\theta \prod_{i=1}^n \ln{p(x_i|\theta)} \]
而且能够发现公式中只有一个变量\(\theta\)学习

5.1 未知参数只有一个

若是\(\theta\)为标量，在似然函数知足连续、可微的状况下，则极大似然估计量是下面微分方程的解
\[ {\frac{dH(\theta)}{d\theta}} = {\frac{d\ln{l(\theta)}}{d\theta}} = 0 \]网站

5.2 位置参数有多个

若是\(\theta\)为\(k\)维向量，能够把\(\theta\)记做\(\theta = [\theta_1,\theta_2,\ldots,\theta_k]^T\)，对\(\theta_1,\theta_2,\ldots,\theta_k\)求梯度，可得
\[ \Delta_\theta=[{\frac{\partial}{\partial_{\theta_1}}},{\frac{\partial}{\partial_{\theta_2}}},\cdots,{\frac{\partial}{\partial_{\theta_s}}}]^T \]
若是似然函数知足连续、可导的状况下，则最大似然估计量就是以下方程的解：
\[ \Delta_\theta{H(\theta)} = \Delta_\theta\ln{l(\theta)} = \sum_{i=1}^n \Delta_\theta \ln(p(x_i|\theta)) = 0 \]人工智能

5.3 总结

方程的解只是一个估计值，只有在样本趋于无限多的时候，才会逐渐接近真实值。spa