机器学习基础系列--先验几率 后验几率 似然函数 最大似然估计(MLE) 最大后验几率(MAE) 以及贝叶斯公式的理解

机器学习基础

1. 几率和统计

几率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题恰好相反。
顾名思义:网络

  • 几率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。
  • 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。在实际研究中,也是经过观察数据,推测模型是高斯分布的、指数分布的、拉普拉斯分布的等,而后,能够进一步研究,推测模型参数。

一句话总结:几率是已知模型和参数,推数据。统计是已知数据,推模型和参数。机器学习

2. 先验几率(由历史求因

百度百科定义:先验几率(prior probability)是指根据以往经验和分析获得的几率,如全几率公式,它每每做为"由因求果"问题中的"因"出现的几率。
维基百科定义: 在贝叶斯统计中,某一不肯定量p的先验几率分布是在考虑"观测数据"前,能表达p不肯定性的几率分布。函数

能够看到两者定义有一个共同点,即先验几率是不依靠观测数据的几率分布,也就是与其余因素独立的分布。因此能够用表示。学习

\[P(θ) \tag{1} \]

先验几率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,spa

3. 后验几率(知果求因

维基百科定义: 在贝叶斯统计中,一个随机事件或者一个不肯定事件的后验几率是在考虑和给出相关证据或数据后所获得的条件几率。一样,后验几率分布是一个未知量(视为随机变量)基于试验和调查后获得的几率分布。.net

简单的理解就是这个几率须要观测数据才能获得,例如咱们须要对一个神经网络建模,咱们须要基于给定的数据集X才能获得网络参数θ的分布,因此后验几率表示为blog

\[P(θ|X) \tag{2} \]

4. 似然函数(由因求果

百度百科定义: 统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数\(θ\)的似然函数\(L(θ|x)\)(在数值上)等于给定参数\(θ\)后变量\(X\)的几率:$$L(θ|x)=P(X=x|θ)$$。
维基百科定义: 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。事件

\[L(θ|x)=P(X=x|θ) \tag{3} \]

似然几率很好理解,就是说咱们如今有一堆数据,如今须要构建一组参数对这些数据建模,以使得模型可以尽量地拟合这些数据。因此咱们要作的就是从不少组参数中选出一组使得模型对数据的拟合程度最高,因此也经常说最大似然几率,即 \(\mathop {argmax}_{θ}P(X|θ)\)get

5. 有趣的野史--贝叶斯和似然之争-最大似然几率(MLE)-最大后验几率(MAE)-贝叶斯公式

极大似然估计和贝叶斯估计分别表明了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。所以,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计以下所示:it

\[θ_{MLE}=argmax_{θ}P(X|θ) \tag{4} \]

X表示训练数据集,θ是模型参数

相反的,贝叶斯派认为参数也是随机的,和通常随机变量没有本质区别,正是由于参数不能固定,当给定一个输入x后,咱们不能用一个肯定的y表示输出结果,必须用一个几率的方式表达出来,因此贝叶斯学派的预测值是一个指望值,以下所示:

\[E[y|x]=∫P(y|x,θ)P(θ|X)dθ \tag{5} \]

其中X表示输入训练数据集,y表示输出,θ 是模型参数

该公式称为全贝叶斯预测。如今的问题是如何求 p(θ|X) (后验几率),根据贝叶斯公式咱们有:

\[P(θ|X)=\frac{P(X|θ)P(θ)}{P(X)}=\frac{P(X|θ)P(θ)}{∫p(X|θ)p(θ)dθ} \tag{6} \]

惋惜的是,上面的后验几率一般是很难计算的,由于要对全部的参数进行积分,不能找到一个典型的闭合解(解析解)。在这种状况下,咱们采用了一种近似的方法求后验几率,这就是最大后验几率

\[θ_{MAP}=argmax_θP(X|θ)P(θ) \tag{7} \]

最大后验几率和极大似然估计很像,只是多了一项先验分布\(P(\theta)\),它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中一般经过超参数给出先验分布。

从以上能够看出,

  • 一方面,极大似然估计和最大后验几率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验几率是贝叶斯学派的一种近似手段,由于彻底贝叶斯估计不必定可行。
  • 另外一方面,最大后验几率能够看做是对先验和MLE的一种折中,若是数据量足够大,最大后验几率和最大似然估计趋向于一致,这是由于当数据量很大时,先验几率趋向于均匀分布。若是数据为0,最大后验仅由先验决定。

贝叶斯估计假设将待估计的参数当作是符合某种先验几率分布的随机变量,而不是肯定数值。在样本分布上,计算参数的全部状况并经过计算参数的指望,获得后验几率密度。
极大似然估计是将参数\(\theta\)做为一个肯定值。

总结:先验几率 后验几率以及似然函数的关系

先验几率: \(P(θ)\)
后验几率: \(P(θ|X)\)
似然几率: \(P(X|θ)\)
它们三者存在这样的关系:

\[P(θ|X)=\frac{P(X|θ)P(θ)}{P(X)} \tag{8} \]

通常而言数据\(P(X)\)的分布是知道的,因此有

\[P(θ|X)∝P(X|θ)P(θ) \]

此外,当参数\(θ\)是均匀分布时,后验几率和似然几率成正比,后验几率正比于先验几率乘以似然函数即:

\[P(θ|X)∝P(X|θ) \]

参考文献:
一个例子搞清楚(先验分布/后验分布/似然估计)转载详细介绍几个概念之间的因果关系,简单易懂。
先验几率,后验几率,似然几率,条件几率,贝叶斯,最大似然
几率论:先验与后验与似然

相关文章
相关标签/搜索