[白话解析] 深刻浅出极大似然估计 & 极大后验几率估计

时间 2020-01-11

标签白话解析深刻极大估计几率繁體版

原文原文链接

[白话解析] 深刻浅出极大似然估计 & 极大后验几率估计

0x00 摘要

本文在少用数学公式的状况下，尽可能仅依靠感性直觉的思考来说解极大似然估计 & 极大后验几率估计，而且从名著中找了几个实例给你们看看这两种估计如何应用 & 其很是有趣的特色。html

0x01 背景知识

1. 几率 vs 统计

几率（probability）和统计（statistics）看似两个相近的概念，其实研究的问题恰好相反。java

1.1 几率

几率研究的是，已经知道了模型和参数后，给出一个事件发生的几率。算法

几率是一种肯定性的东西，是一种理想值。根据大数定理，当实验次数趋近无穷的时候，频率等于几率。框架

频率学派就是认为世界是肯定的，建模时候参数 θ 是一个肯定的值，所以他们的观点是直接的对时间自己进行建模。机器学习

1.2 统计

统计是根据给出的观测数据，利用这些数据进行建模和参数的预测。函数

统计通俗的说法就是根据观测的数据，获得对应的模型以及模型的描述参数等（例如推测是一个高斯模型，以及获得该模型的具体的参数 σ,μ 等）。工具

一句话总结：几率是已知模型和参数，推数据。统计是已知数据，推模型和参数。post

2. 频率学派 vs 贝叶斯学派

频率学派和贝叶斯学派对世界的认知有本质不一样。学习

2.1 频率学派与贝叶斯学派探讨「不肯定性」这件事时的出发点与立足点不一样

频率学派认为世界是肯定的，有一个本体，这个本体的真值是不变的，咱们的目标就是要找到这个真值或真值所在的范围；
贝叶斯学派认为世界是不肯定的，人们对世界先有一个预判，然后经过观测数据对这个预判作调整，咱们的目标是要找到最优的描述这个世界的几率分布。优化

2.2 频率学派和贝叶斯学派解决问题的角度不一样

频率学派从「天然」角度出发，试图直接为「事件」自己建模，即事件在独立重复试验中发生的频率趋于极限，那么这个极限就是该事件的几率。

贝叶斯学派并不从试图刻画「事件」自己，而从「观察者」角度出发。贝叶斯学派并不试图说「事件自己是随机的」，或者「世界的本体带有某种随机性」，这套理论根本不言说关于「世界本体」的东西，而只是从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯几率论的框架下能够对不肯定知识作出推断的方法。

3. 几率函数 vs 似然函数

几率：参数 + 观测 --> 结果
似然：观测 + 结果 --> 参数

假若有一个函数 P(x|θ), 其中θ是须要估计的参数，x是具体的数据也就是样本。

3.1 几率函数

若是θ是已知肯定的，x是变量，这个函数叫作几率函数(probability function)，它描述对于不一样的样本点x，其出现几率是多少（表示不一样x出现的几率）。

几率函数属于已知模型和参数对时间进行预测分析。几率函数用于在已知一些参数的状况下，预测接下来的观测所获得的结果。

3.2 似然函数

若是x是已知肯定的，θ是变量，这个函数叫作似然函数(likelihood function), 它描述对于不一样的模型参数θ，出现x这个样本点的几率是多少(表示不一样θ下，x出现的几率）。此时的函数也记做L(θ|x)或L(x;θ)或f(x;θ)

似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性(可能性)。就是给定一组观测数据，对有关事物的性质的参数进行估计，即已知具体样本数据，对于模型的参数进行分析预测。

最大似然就是模型参数的最大可能性。

4. 参数估计

参数估计（parameter estimation），统计推断的一种。根据从整体中抽取的随机样原本估计整体分布中未知参数的过程。

所谓的“机器学习”就是把大量的数据概括到少数的参数中，“训练”正是估计这些参数的过程。

现代机器学习的终极问题都会转化为解目标函数的优化问题，MLE和MAP是生成这个函数的很基本的思想。

极大似然估计 Maximum Likelihood Estimation, MLE 是频率学派经常使用的参数估计方法。
极大后验几率Maximum A Posteriori, MAP是贝叶斯学派经常使用的参数估计方法。

在对事物建模时，用 θ 表示模型的参数，解决问题的本质就是求θ 。那么：

4.1 频率学派

频率学派认为：存在惟一真值θ 。

4.2 贝叶斯学派

贝叶斯学派认为： θ是一个随机变量，符合必定的几率分布。即不认为模型的参数θ是一个肯定的值，而是认为参数θ 自己也服从某种潜在分布。

在贝叶斯学派里有两大输入和一大输出，输入是先验 (prior)和似然 (likelihood)，输出是后验 (posterior)。

先验，即 θ，指的是在没有观测到任何数据时对θ 的预先判断；

似然，即 p(x|θ) ，是假设 θ已知后咱们观察到的数据应该是什么样子的；

后验，即 p(θ|x) , 是最终的参数分布。

即对事件进行建模的时候，先假设有一个预估（先验几率），而后根据观测数据，不断调整以前的预估。

0x02 极大似然估计（Maximum Likelihood Estimation，MLE）

1. 思想

最大似然估计是一种“模型已定，参数未知”的方法，即利用已知的样本的结果，在使用某个模型的基础上，反推最有可能致使这样结果的模型参数值。

最大似然估计的思想: 使得观测数据（样本）发生几率最大的参数就是最好的参数。

通俗的说就是 —— 最像估计法（最可能估计法），即几率最大的事件，最可能发生。

极大似然估计是典型的频率学派观点，它的基本思想是：待估计参数 θ 是客观存在的，只是未知而已，当 θ-mle 知足 “ θ = θ-mle 时，该组观测样本 (X1,X2,...,Xn) = (x1, x2,...,xn) 更容易被观测到“，咱们就说 [θ-mle] 是 [θ] 的极大似然估计值。也即，估计值 [θ-mle] 使得事件发生的可能性最大。

2. 似然函数

假设分布率为 P=p(x;θ)，x是发生的样本，θ是代估计的参数，p(x;θ)表示估计参数为θ时，发生x的的几率。
那么当咱们的样本值为：x1,x2,...,xn 时，

L(θ) = L(x1,x2,...,xn;θ) = p(x1|θ)...p(xn|θ) 连乘

其中L(θ)成为样本的似然函数。假设有 θ^ 使得 L(θ) 的取值最大，那么 θ^ 就叫作参数 θ 的极大似然估计值

能使L(θ)最大的值，就做为参数的最大似然估计值。

而求最大似然估计的问题，就变成了求似然函数的极值。

3. 似然函数转化

前提条件

可以使用极大似然估计方法的样本必须须要知足一些前提，好比：训练样本的分布能表明样本的真实分布。每一个样本集中的样本都是所谓独立同分布的随机变量，且有充分的训练样本。

对数似然函数

对一个独立同分布的样本集来讲，整体的似然就是每一个样本似然的乘积。因为整体的似然就是每一个样本似然的乘积，可是连乘计算起来比较麻烦，并且会有以下问题：

下溢出问题：是太多很小的数相乘，结果可能会很小，就形成了下溢出。
浮点数舍入问题：是程序中在相应小数位置进行四舍五入，计算结果可能就变成0。

为了求解方便，咱们一般会将似然函数取对数，从而转成对数似然函数。

转成对数似然函数还有以下好处：

对数函数并不影响函数的凹凸性。因为ln对数属于单调递增函数，几率的最大对数值出如今与原始几率函数相同的点上，所以不会改变极值点。
方便求导：根据前面的似然函数公式，是一堆的数字相乘，这种算法求导会很是麻烦，而取对数是一种很方便的手段。因为对数的计算法则：lnab = blna、lnab = lna + lnb ，求导就很方便了。公式中的几率连乘变成了对数几率相加。

既然似然函数可导，那么就能够经过求导数的方式获得驻点，从而算出极大值。

若是对数似然函数简单，是能够直接求导获得，可是在更多的状况下，咱们须要经过梯度降低法等最优化算法来求解。而绝大部分最优化的工具包都默认求函数的最小值，所以别忘了在你把它塞给一个最优化工具包以前，把你的log似然乘以 -1 变成负log似然(Negative Log Likelihood)。

这也是某些文章中有以下公式的缘由：
\[ θ =arg max l(θ)=-arg min l(θ) \]

4. 实例

举一个网上的经典例子：

假若有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例，但咱们不能把罐中的球所有拿出来数。如今咱们能够每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，而后把拿出来的球 再放回罐中。这个过程能够重复，咱们能够用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有多是多少？不少人立刻就有答案了：70%。而其后的理论支撑是什么呢？
咱们假设罐中白球的比例是p，那么黑球的比例就是1-p。由于每抽一个球出来，在记录颜色以后，咱们把抽出的球放回了罐中并摇匀，因此每次抽出来的球的颜色服从同一独立分布。这里咱们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的几率是P(Data | M)，这里Data是全部的数据，M是所给出的模型，表示每次抽出来的球是白色的几率为p。若是第一抽样的结果记为x1，第二抽样的结果记为x2... 那么Data = (x1,x2,…,x100)。这样，

　P(Data | M)
　　　　　= P(x1,x2,…,x100|M)
　　　　　= P(x1|M)P(x2|M)…P(x100|M)
　　　　　= p^70(1-p)^30.

那么p在取什么值的时候，P(Data |M)的值最大呢？将p^70(1-p)^30对p求导，并其等于零。

　　　　70p^69(1-p)^30-p^70*30(1-p)^29=0。

　　　　解方程能够获得p=0.7。

在边界点p=0,1，P(Data|M)=0。因此当p=0.7时，P(Data|M)的值最大。这和咱们常识中按抽样中的比例来计算的结果是同样的。

5. 最大似然估计的求解步骤：

肯定似然函数
将似然函数转换为对数似然函数
求对数似然函数的最大值（求导，解似然方程）

最大似然估计老是能精确地获得解吗？简单来讲，不能。更有可能的是，在真实的场景中，对数似然函数的导数仍然是难以解析的（也就是说，很难甚至不可能人工对函数求微分）。所以，通常采用指望最大化（EM）算法等迭代方法为参数估计找到数值解，但整体思路仍是同样的。

6. 水浒传中的极大似然估计

话说极大似然估计是一个平时经常使用的原理，我在《水浒传》中也找到了相关的应用，下面找几个看看。

很是有趣的是，应用实例的人全是北宋都头。一个是郓城县都头雷横，一个是清河县都头武松。

这能看出来北宋基层刑警一些工做特色，他们没有现代各类科学仪器和理论的帮助，只能凭借"极大似然估计" 这个法宝在第一时间作出最可能最有效的判断。与后文中实施"极大后验几率"的小商贩石秀造成了明显区别。

6.1 插翅虎雷横抓赤发鬼刘唐。

假定分布率为P=p(x;θ)，x是发生的样本，θ是代估计的参数，p(x;θ)表示估计参数为θ时，发生x的的几率。

θ = 刘唐是什么人。可能取值大概是普通人/贼人/军官......

x = 这殿里没有庙祝，殿门不关，一条大汉夜里独睡。

雷横这经验丰富的老刑警，马上作出了最可能的判断。

θ 是"刘唐是贼"。

第十二回青面兽北京斗武急先锋东郭争功

只说雷横当晚引了二十个士兵出东门绕村巡察，遍地里走了一遭，回来到东溪村山上，众人采了那红叶，就下村来。
行不到三二里，早到灵官庙前，见殿门不关。
雷横道：“这殿里又没有庙祝，殿门不关，莫不有歹人在里面么？咱们直入去看一看。”众人拿着火一齐将入来。
只见供桌上禁止地睡着一个大汉。
天道又热，那汉子把些破衣裳团作一块做枕头枕在项下，的沉睡着了在供桌上。
雷横看了道：“好怪！懊怪！知县相公忒神明！原来这东溪村真个有贼！” 大喝一声。
那汉却待要挣挫，被二十个士兵一齐向前，把那汉子一条索绑子，押出庙门，投一个保正庄上来。

6.2 武松初遇蒋门神

假定分布率为P=p(x;θ)，x是发生的样本，θ是代估计的参数，p(x;θ)表示估计参数为θ时，发生x的的几率。

θ = 大汉是什么人。取值多是蒋门神，店小二，隔壁店掌柜......

x = 一个金刚也似大汉在蒋门神酒店门前躺着乘凉。

武二郎马上作出了极大似然判断，这汉在蒋门神酒店门前乘凉，长得身材金刚也似，因此这厮必然是蒋忠。

θ = "大汉是蒋门神"

第二十八回施恩重霸孟州道武松醉打蒋门神

武松酒却涌上来，把布衫摊开；虽然带着五七分酒，却装作十分醉的，前颠後偃，东倒西歪，来到林子前，仆人用手指道：“只前头丁字路口即是蒋门神酒店。”武松道：“既是到了，你自去躲得远着。等我打倒了，大家却来。”

武松抢过林子背後，见一个金刚来大汉，披着一领白布衫，撒开一把交椅，拿着蝇拂子，坐在绿槐树下乘凉。武松假醉佯颠，斜着眼看了一看，心中自忖道：“这个大汉必定是蒋门神了。”直抢过去。又行不到三五十步，早见丁字路口一个大酒店，檐前立着望竿，上面挂着一个酒望子，写着四个大字，道：“河阳风月”。

6.3. 武松杀王道人

假定分布率为P=p(x;θ)，x是发生的样本，θ是代估计的参数，p(x;θ)表示估计参数为θ时，发生x的的几率。

θ = 王道人是什么人。可能取值是正常道人，歹人......

x = 荒山野岭孤庵，一个先生搂着一个妇人在那窗前看月戏笑。

武二郎马上作出了极大似然判断，这必然不是好人。

θ = "王道人是歹人"

第三十回张都监血溅鸳鸯楼武行者夜走蜈蚣岭

当晚武行者离了大树十字坡便落路走。此时是十月间天气，日正短，转眼便晚了。约行不到五十里，早望见一座高岭。武行者趁着月明，一步步上岭来，料道只是初更天色。武行者立在岭头上看时，见月从东边上
来，照得岭上草木光辉。

正看之间，只听得前面林子里有人笑声。武行者道：“又来做怪！这般一条静荡荡高岭，有甚麽人笑语！”走过林子那边去打一看，只见松树林中，傍山一座坟庵，约有十数间草屋，推开着两扇小窗，一个先生搂着一个妇人在那窗前看月戏笑。

武行者看了，“怒从心上起，恶向胆边生，”“这是山间林下，出家人却作这等勾当！”便去腰里掣出那两口烂银也似戒刀来，在月光下看了，道：“刀倒是好，到我手里未曾发市，且把这个鸟先生试刀！”

0x03 最大后验几率估计(MAP)

最大后验几率估计，英文为Maximum A Posteriori Estimation，简写为MAP。MAP是贝叶斯学派经常使用的参数估计方法。

先回顾下似然函数的概念：函数 P(x|θ), 其中θ是须要估计的参数，x 是具体的数据也就是样本。若是x是已知肯定的，θ是变量，这个函数叫作似然函数(likelihood function)，它描述对于不一样的模型参数，出现x这个样本点的几率是多少。

最大后验几率估计能够从最大似然估计推导出来。

1. 推理过程

最大似然估计是求参数θ, 使似然函数P(x|θ)最大。

最大后验几率估计则是想求θ使 P(x|θ)P(θ) 最大。求得的 θ 不仅仅让似然函数大，θ 本身出现的先验几率也得大。

MAP是在最大化 P(x|θ)P(θ)

由于在实际实验中，p(x)是已经发生了，因此p(x)是一个固定数值, 是观测到的。于是

MAP也就是在最大化 P(x|θ)P(θ) / P(x)

此时可见，MAP受到两个部分的影响，P(x∣θ) 和P(θ) ，前者相似于似然函数，后者是参数的先验分布。

P(x|θ)P(θ) / P(x) ==> 就是 p(θ|x)。因此

MAP是在最大化 p(θ|x) = P(x|θ)P(θ) / P(x)

最大化P(θ|x)的意义也很明确，x 已经出现了，要求θ取什么值使P(θ|x)最大。顺带一提，P(θ|x)即后验几率，这就是“最大后验几率估计”名字的由来。

2. 上述推理也可化成下面说法

最大似然估计认为使似然函数P(x|θ)最大的参数θ即为最好的θ，此时最大似然估计是将θ看做固定的值，只是其值未知；

最大后验几率分布认为θ是一个随机变量，即θ具备某种几率分布，称为先验分布，求解时除了要考虑似然函数P(x|θ)以外，还要考虑θ的先验分布P(θ)，所以其认为使P(x|θ)P(θ)取最大值的θ就是最好的θ。

在最大似然估计中，因为认为θ是固定的，所以P(θ)=1。

3. 最大后验，最大似然联系和区别：

最大后验估计不仅是关注当前样本的状况，还容许咱们把先验知识加入到估计模型中，这在样本不多时候是颇有用的。
最大后验，最大似然这二者的区别，其实就是对于参数θ的理解不同。

最大化后验几率的思想是该参数自己就服从某种潜在的分布，是须要考虑的。其先验几率密度函数是已知的，为P(θ)
而最大似然则认为该参数是一个固定的值，不是某种随机变量。

最大后验几率估计其实就是最大似然多了一个先验几率参数(待估计参数的先验分布)，也能够认为最大似然估计就是把先验几率认为是一个定值。即，若是假设 P(θ) 是均匀分布，则贝叶斯方法等价于频率方法。由于直观上来说，先验是uniform distribution本质上表示对事物没有任何预判，那么最大后验，最大似然就相等了。

4. 最大后验几率估计的求解步骤：

肯定参数的先验分布以及似然函数
肯定参数的后验分布函数
将后验分布函数转换为对数函数
求对数函数的最大值（求导，解方程）

5. 水浒传中的极大后验几率估计

极大似然估计是有风险的，就是若是样本不足，可能就会有判别偏差。

而最大后验与最大似然区别：最大后验容许咱们把先验知识加入到估计模型中，这在样本不多时候是颇有用的。

水浒传中极大后验几率估计的应用，就是石秀杀裴如海/潘巧云。

拼命三郎石秀是什么人？

首先他是小商人，"贩卖羊马/卖柴/开屠宰做坊"，作事必须讲证据/有推理/深思熟虑。
其次他是梁山中少有的"胆大心细"，能担当细做搞定祝家庄迷宫，也能单刀劫法场救卢员外。

不管是职业特点仍是性格特色都决定了他不会单纯考虑 "极大似然"，而是会结合"先验条件"来实施“极大后验几率估计”，就是必须 "先验条件" & "样本" 加在一块儿最大。

下面原文中加粗下划线的就是石秀以前的样本经验(先验知识)：潘巧云以前就几番对石秀说过风话。

假定分布率为P=p(x;θ)，x是发生的样本，θ是代估计的参数，p(x;θ)表示估计参数为θ时，发生x的的几率。

θ = 潘巧云和裴如海的关系，可能取值是普通香客与僧人 / 结义兄妹 / 有奸情 .....

x = 石秀的观察数据

石秀经过 "连续十次以上暗中观察"，获得了观测样本，而后 "观测数据（样本）+ 先验知识 ---> 发生几率最大的参数" 。

θ 是"有奸情"。

施耐庵老爷子实在厉害，在书中把石秀这个"先验 + 观察 ---> 推理" 的迭代过程和心理状态写的入木三分。

第四十四回　杨雄醉骂潘巧云　石秀智杀裴如海

石秀道：“原来恁地。”自肚里已瞧科一分了。
不防石秀在布里一眼张见，早瞧科了二分，道： “‘莫信直中直，须防仁不仁！’我几番见那婆娘经常的只顾对我说些风话，我只以亲嫂嫂通常相待。原来这婆娘倒不是个良人！莫教撞在石秀手里，敢替杨雄作个出场也不见得！”石秀一想，一发有三分瞧科了，便揭起布，撞将出来。
石秀在门前低了头只顾寻思，其实心中已瞧科四分。
石秀都瞧科了，足有五分来不快意。
石秀不快，此时真到六分，只推肚疼，自去睡在板壁后了。
不想石秀在板壁后假睡，正瞧得看，已看到七分了。
石秀自瞧科八分了。
石秀是乖觉的人，早瞧了九分，冷地里，思量道：“这条巷是条死巷。如何有这头陀，连日来这里敲木鱼叫佛？”
石秀听得叫的跷蹊，便跳将起来去门缝里张时, 只见一我的，戴顶头巾，从黑影里，闪将出来，和头陀去了；随后即是迎儿关门。石秀瞧到十分。

0x04 贝叶斯估计

1. 对MAP进行扩展

贝叶斯学派有一个硬伤：凭什么去选择先验？若是选择了一个强但偏离实际的先验，MAP效果可能还不如MLE。因此贝叶斯估计准备在MAP上作进一步拓展，如何扩展呢？下面理一下思路:

首先，MLE和MAP都把参数θ当作一个未知的肯定变量。MLE认为参数θ是一个固定数值。MAP认为随机变量θ具备某种几率分布，而后MAP取了后验分布的峰值（众数，mode）。

其次，mode每每不具备很强的表明性（特别是在多峰的函数中）。那么与其将后验分布的峰值拿来凑合，还不如将整个后验分布求出来，用一个分布来描述待估的参数。这就是Inference。

因此，贝叶斯估计一样假定θ是一个随机变量（服从必定几率分布），但贝叶斯估计并非直接估计出θ的某个特定值，而是估计θ的分布，这是贝叶斯估计与最大后验几率估计不一样的地方。在贝叶斯估计中，先验分布P(X)是不可忽略的。

2. 思想：

贝叶斯学派的思想认为，世界是不肯定的，所以先假设有一个预估（先验几率），而后根据观测数据，不断调整以前的预估。通俗的讲就是，对事件进行建模的时候，不认为模型的参数θ是一个肯定的值，而是认为参数θ自己也服从某种潜在分布。

贝叶斯统计的重点：参数未知且不肯定，所以做为未知的随机变量，参数自己也是一个分布，同时，根据已有的先验知识和样本信息能够获得参数θ的先验几率，根据先验几率来推断θ的后验几率。并指望后延几率在真实的θ值处有一个尖峰。

极大似然估计和极大后验几率估计，都求出了参数θ的值，而贝叶斯推断则不是，它根据参数的先验分布P(θ)和一系列观察X，求出参数θ的后验分布P(θ|X)，即这个后验几率分布P(θ|X)实际上是一系列参数值θ的几率分布，再说简单点就是咱们获得了许多个参数θ及其对应的可能性，咱们只须要从中选取咱们想要的值就能够了。

3. 常见三种方法

那么如何根据后验分布进行参数估计呢？常见的方法有三种：后验分布的众数（即后验密度最大的点）、后验分布的中位数、后验分布的均值。

有时咱们想要几率最大的那个参数，那这就是 后验众数估计(posterior mode estimator)；

有时咱们想知道参数分布的中位数，那这就是 后验中位数估计(posterior median estimator);

有时咱们想知道的是这个参数分布的均值，那就是 后验指望估计。

这三种估计没有谁好谁坏，只是提供了三种方法得出参数，看须要来选择。用得最多的是后验指望估计，它通常也直接简称为贝叶斯估计。基于贝叶斯估计和基于极大似然估计的朴素贝叶斯算法步骤基本上是同样的，区别在于有没有对几率作平滑。

4. MAP与贝叶斯估计的联系

如今咱们清楚了，在贝叶斯估计中，若是咱们采用极大似然估计的思想，考虑后验分布极大化而求解 θ ，而后选取了后验分布的峰值（众数，mode），就变成了最大后验估计（Maximum A Posteriori estimation，MAP）。

做为贝叶斯估计的一种近似解，MAP有其存在的价值，由于贝叶斯估计中后验分布的计算每每是很是棘手的；并且，MAP并不是简单地回到极大似然估计，它依然利用了来自先验的信息，这些信息没法从观测样本得到。

5. 对比：

极大似然估计、最大后验估计和贝叶斯估计都是参数估计方法。
极大似然估计和最大后验估计都是点估计，即把参数当作未知常数，经过最大化似然和后验几率实现。
贝叶斯估计把参数当作一个随机变量，属于分布估计，而后求该随机变量在数据集D下的条件指望。
当先验为均匀分布时，极大似然估计和最大后验估计是等价的。即估计参数的先验几率为 1 ；
当先验和似然都是高斯分布时，最大后验估计和贝叶斯估计是等价的。
一般状况下，贝叶斯估计的积分很难计算，但能够采起一些近似方法，如拉普拉斯和变分近似以及马尔科夫链蒙特卡洛抽样。
贝叶斯估计相对于最大后验估计的好处还在于，贝叶斯估计计算了整个后验几率的分布，从而也能求出其余一些好比分布的方差之类的值来供参考，好比计算出来方差太大的，咱们能够认为分布不够好，从而把这个当作选择超参数的一个考虑因素。实际上，贝叶斯估计会比MAP把估计的结果往先验结果“拉”的程度还提升了一些，从而使估计结果更靠近先验结果。
贝叶斯估计的应用有LDA主题模型。LDA主题模型经过共轭分布的特性来求出主题分布和词分布。