叶斯推理的原理(举例说明)

实例详解贝叶斯推理的原理并发

贝叶斯推理是一种精确的数据预测方式。在数据没有指望的那么多,但却想毫无遗漏地,全面地获取预测信息时很是有用。分布式

 

说起贝叶斯推理时,人们时常会带着一种敬仰的心情。其实并不是想象中那么富有魔力,或是神秘。尽管贝叶斯推理背后的数学愈来愈缜密和复杂,但其背后概念仍是很是容易理解。简言之,贝叶斯推理有助于你们获得更有力的结论,将其置于已知的答案中。优化

贝叶斯推理理念源自托马斯贝叶斯。三百年前,他是一位从不循规蹈矩的教会长老院牧师。贝叶斯写过两本书,一本关于神学,一本关于几率。他的工做就包括今天著名的贝叶斯定理雏形,自此之后应用于推理问题,以及有根据猜想(educated guessing)术语中。贝叶斯理念如此流行,得益于一位名叫理查·布莱斯牧师的大力推崇。此人意识到这份定理的重要性后,将其优化完善并发表。所以,此定理变得更加准确。也所以,历史上将贝叶斯定理称之为 Bayes-Price法则。spa

 

译者注:educated guessing 基于(或根据)经验(或专业知识、手头资料、事实等)所做的估计(或预测、猜想、意见等).net

影院中的贝叶斯推理blog

 640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 

试想一下,你前往影院观影,前面观影的小伙伴门票掉了,此时你想引发他们的注意。此图是他们的背影图。你没法分辨他们的性别,仅仅知道他们留了长头发。那你是说,女士打扰一下,仍是说,先生打扰一下。考虑到你对男人和女人发型的认知,或许你会认为这位是位女士。(本例很简单,只存在两种发长和性别)队列

 

如今将上面的情形稍加变化,此人正在排队准备进入男士休息室。依靠这个额外的信息,或许你会认为这位是位男士。此例采用常识和背景知识便可完成判断,无需思考。而贝叶斯推理是此方式的数学实现形式,得益于此,咱们能够作出更加精确的预测。事件

640?wx_fmt=jpeg

 

咱们为电影院遇到的困境加上数字。首先假定影院中男女各占一半,100我的中,50个男人,50个女人。女人中,一半为长发,余下的25人为短发。而男人中,48位为短发,两位为长发。存在25个长发女人和2位长发男人,由此推断,门票持有者为女士的可能性很大。rem

 

640?wx_fmt=jpeg

 

 

 

100个在男士休息室外排队,其中98名男士,2位女士为陪同。长发女人和短发女人依旧对半分,但此处仅仅各占一种。而男士长发和短发的比例依旧保持不变,按照98位男士算,此刻短发男士有94人,长发为4人。考虑到有一位长发女士和四位长发男士,此刻最有可能的是持票者为男士。这是贝叶斯推理原理的具体案例。事先知晓一个重要的信息线索,门票持有者在男士休息室外排队,能够帮助咱们作出更好的预测。数学

 

为了清晰地阐述贝叶斯推理,须要花些时间清晰地定义咱们的理念。不幸的是,这须要用到数学知识。除非不得已,我尽可能避免此过程太过深奥,紧随我查看更多的小节,一定会从中受益。为了你们可以创建一个基础,咱们须要快速地说起四个概念:几率、条件几率、联合几率以及边际几率。

 

几率

 

640?wx_fmt=jpeg

一件事发生的几率,等于该事件发生的数目除以全部事件发生的数目。观影者为一个女士的几率为50位女士除以100位观影者,即0.5 或50%。换做男士亦如此。

 

640?wx_fmt=jpeg

而在男士休息室排列此种情形下,女士几率降至0.02,男士的几率为0.98。

 

条件几率

 

640?wx_fmt=jpeg

条件几率回答了这样的问题,假若我知道此人是位女士,其为长发的几率是多少?条件几率的计算方式和直接获得的几率同样,但它们更像全部例子中知足某个特定条件的子集。本例中,此人为女士,拥有长发的人士的条件几率,P(long hair | woman)为拥有长发的女士数目,除以女士的总数,其结果为0.5。不管咱们是否考虑男士休息室外排队,或整个影院。
640?wx_fmt=jpeg

一样的道理,此人为男士,拥有长发的条件几率,P(long hair | man)为0.4,无论其是否在队列中。

 

640?wx_fmt=jpeg

很重要的一点,条件几率P(A | B)并不等同于P(B | A)。好比P(cute | puppy)不一样于P(puppy | cute)。假若我抱着的是小狗,可爱的几率是很高的。假若我抱着一个可爱的东西,成为小狗的几率中等偏下。它有多是小猫、小兔子、刺猬,甚至一个小人。

 

联合几率

 

640?wx_fmt=jpeg

 

 

联合几率适合回答这样的问题,此人为一个短发女人的几率为多少?找出答案须要两步。首先,咱们先看几率是女人的几率,P(woman)。接着,咱们给出头发短人士的几率,考虑到此人为女士,P(short hair | woman)。经过乘法,进行联合,给出联合几率,P(woman with short hair) = P(woman) * P(short hair | woman)。利用此方法,咱们即可计算出咱们已知的几率,全部观影中P(woman with long hair)为0.25,而在男士休息室队列中的P(woman with long hair)为0.1。不一样是由于两个案例中的P(woman)不一样。


640?wx_fmt=jpeg

 

类似的,观影者中P(man with long hair) 为0.02,而在男士休息室队列中几率为0.04。
640?wx_fmt=jpeg

和条件几率不一样,联合几率和顺序无关,P(A and B)等同于P(B and A)。好比,同时拥有牛奶和油炸圈饼的几率,等同于拥有油炸圈饼和牛奶的几率。

 

边际几率

 640?wx_fmt=jpeg

咱们最后一个基础之旅为边际几率。特别适合回答这样的问题,拥有长发人士的几率?为计算出结果,咱们须累加此事发生的全部几率——即男士留长发的几率加女士留长发的几率。加上这两个几率,即给出全部观影者P(long hair)的值0.27,而男休息室队列中的P(long hair)为0.05。

 

贝叶斯定理

 

如今到了咱们真正关心的部分。咱们想回答这样的问题,假若咱们知道拥有长发的人士,那他们是位女士或男士的几率为?这是一个条件几率,P(man | long hair),为咱们已知晓的P(long hair | man)逆方式。由于条件几率不可逆,所以,咱们对这个新条件几率知之甚少。

 

幸运的是托马斯观察到一些很酷炫的知识能够帮到咱们。

640?wx_fmt=jpeg

 

根据联合几率计算规则,咱们给出方程P(man with long hair)和P(long hair and man)。由于联合几率可逆,所以这两个方程等价。

 

640?wx_fmt=jpeg

 

借助一点代数知识,咱们就能解出P(man | long hair)。

 

640?wx_fmt=jpeg

 

表达式采用A和B,替换“man”和“long hair”,因而咱们获得贝叶斯定理。

 

640?wx_fmt=jpeg

 

 

咱们回到最初,借助贝叶斯定理,解决电影院门票困境。

 

640?wx_fmt=jpeg

 

首先,须要计算边际几率P(long hair)。

 

640?wx_fmt=jpeg

 

接着代入数据,计算出长发中是男士的几率。对于男士休息室队列中的观影者而言,P(man | long hair)微微0.8。这让咱们更加确信一直觉,掉门票的多是一男士。贝叶斯定理抓住了在此情形下的直觉。更重要的是,更重要的是吸纳了先验知识,男士休息室外队列中男士远多于女士。借用此先验知识,更新咱们对一这情形的认识。

 

几率分布

 

诸如影院困境这样的例子,很好地解释了贝叶斯推理的由来,以及做用机制。然而,在数据科学应用领域,此推理经常用于数据解释。有了咱们测出来的先验知识,借助小数据集即可得出更好的结论。在开始细说以前,请先容许我先介绍点别的。就是咱们须要清楚一个几率分布。

 

此处能够这样考虑几率,一壶咖啡正好装满一个杯子。假若用一个杯子来装没有问题,那不止一个杯子呢,你需考虑如何将这些咖啡分这些杯子中。固然你能够按照本身的意愿,只要将全部咖啡放入某个杯子中。而在电影院,一个杯子或许表明女士或者男士。

640?wx_fmt=jpeg

 

或者咱们用四个杯子表明性别和发长的全部组合分布。这两个案例中,总咖啡数量累加起来为一杯。

 

640?wx_fmt=jpeg

 

一般,咱们将杯子挨个摆放,看其中的咖啡量就像一个柱状图。咖啡就像一种信仰,此几率分布用于显示咱们相信某件事情的强烈程度

 

640?wx_fmt=jpeg

 

假设我投了一块硬币,而后盖住它,你会认为正面和反面朝上的概率是同样的。

 

640?wx_fmt=jpeg

 

假设我投了一个骰子,而后盖住它,你会认为六个面中的每个面朝上的概率是同样的。

 

640?wx_fmt=jpeg

 

假设我买了一期强力球彩票,你会认为中奖的可能性微乎其微。投硬币、投骰子、强力球彩票的结果,均可以视为收集、测量数据的例子。

 

640?wx_fmt=jpeg

 

毫无心外,你也能够对其它数据持有某种见解。这里咱们考虑美国成年人的身高,假若我告诉你,我见过,并测量了某些人的身高,那你对他们身高的见解,或许如上图所示。此观点认为一我的的身高可能介于150和200cm之间,最有可能的是介于180和190cm之间。

 

640?wx_fmt=jpeg

 

此分布能够分红更多的方格,视做将有限的咖啡放入更多的杯子,以期得到一组更加细颗粒度的观点。

 

640?wx_fmt=jpeg

 

最终虚拟的杯子数量将很是大,以致于这样的比喻变得不恰当。这样,分布变得连续。运用的数学方法可能有点变化,但底层的理念仍是颇有用。此图代表了你对某一事物认知的几率分布。

 

感谢大家这么有耐心!!有了对几率分布的介绍,咱们即可采用贝叶斯定理进行数据解析了。为了说明这个,我以我家小狗称重为例
640?wx_fmt=jpeg

兽医领域的贝叶斯推理

 

它叫雅各宾当政,每次咱们去兽医诊所,它在秤上老是各类晃动,所以很难读取一个准确的数据。获得一个准确的体重数据很重要,这是由于,假若它的体重有所上升,那么咱们就得减小其食物的摄入量。它喜欢食物赛过它本身,因此说风险蛮大的。

 

最近一次,在它丧失耐心前,咱们测了三次:13.9镑,17.5镑以及14.1镑。这是针对其所作的标准统计分析。计算这一组数字的均值,标准误差,标准差,即可获得小狗当政的准确体重分布。
640?wx_fmt=jpeg

 

分布展现了咱们认为的小狗体重,这是一个均值15.2镑,标准差1.2镑的正态分布。真实得测量如白线所示。不幸的是,这个曲线并不是理想的宽度。尽管这个峰值为15.2镑,但几率分布显示,在13镑很容易就到达一个低值,在17镑到达一个高值。太过宽泛以至没法作出一个确信的决策。面对如此情形,一般的策略是返回并收集更多的数据,但在一些案例中此法操做性不强,或成本高昂。本例中,小狗当政的(Reign )耐心已经耗尽,这是咱们仅有的测量数据。

 

此时咱们须要贝叶斯定理,帮助咱们处理小规模数据集。在使用定理前,咱们有必要从新回顾一下这个方程,查看每一个术语。

 

640?wx_fmt=gif

 

咱们用“w” (weight)和 “m” (measurements)替换“A” and “B” ,以便更清晰地表示咱们如何用此定理。四个术语分别表明此过程的不一样部分。

 

先验几率,P(w),表示已有的事物认知。本例中,表示未称量时,咱们认为的当政体重w。

 

似然值,P(m | w),表示针对某个具体体重w所测的值m。又叫似然数据。

 

后验几率,P(w | m),表示称量后,当政为某个体重w的几率。固然这是咱们最感兴趣的。

 

译者注:后验几率,一般状况下,等于似然值乘以先验值。是咱们对于世界的内在认知。

 

几率数据,P(m),表示某个数据点被测到的几率。本例中,咱们假定它为一个常量,且测量自己没有偏向。

 

对于完美的不可知论者来讲,也不是什么特别糟糕的事情,并且无需对结果作出什么假设。例如本例中,即使假定当Reign的体重为13镑、或1镑,或1000000 镑,让数听说话。咱们先假定一个均一的先验几率,即对全部值而言,几率分布就一常量值。贝叶斯定理即可简化为P(w | m) = P(m | w)。
640?wx_fmt=gif

此刻,借助Reign的每一个可能体重,咱们计算出三个测量的似然值。好比,假若当政的体重为1000镑,极端的测量值是不太可能的。然而,假若当政的体重为14镑或16镑。咱们能够遍历全部,利用Reign的每个假设体重值,计算出测量的似然值。这即是P(m | w)。得益于这个均一的先验几率,它等同于后验几率分布 P(w | m)。

 

这并不是偶然。经过均值、标准误差、标准差得来的,很像答案。实际上,它们是同样的,采用一个均一的先验几率给出传统的统计估测结果。峰值所在的曲线位置,均值,15.2镑也叫体重的极大似然估计(MLE)。

 

即便采用了贝叶斯定理,但依旧离有用的估计很远。为此,咱们须要非均一先验几率。先验分布表示未测量情形下对某事物的认知。均一的先验几率认为每一个可能的结果都是均等的,一般都很罕见。在测量时,对某些量已有些认识。年龄老是大于零,温度老是大于-276摄氏度。成年人身高罕有超过8英尺的。某些时候,咱们拥有额外的领域知识,一些值颇有可能出如今其它值中。
640?wx_fmt=jpeg

在Reign的案例中,我确实拥有其它的信息。我知道上次它在兽医诊所称到的体重是14.2镑。我还知道它并非特别显胖或显瘦,即使个人胳膊对重量不是特别敏感。有鉴于此,它大概重14.2镑,相差一两镑上下。为此,我选用峰值为14.2镑。标准误差为0.5镑的正态分布。

 

640?wx_fmt=gif

先验几率已经就绪,咱们重复计算后验几率。为此,咱们考虑某一律率,此时Reign体重为某一特定值,好比17镑。接着,17镑这一似然值乘以测量值为17这一条件几率。接着,对于其它可能的体重,咱们重复这一过程。先验几率的做用是下降某些几率,扩大另外一些几率。本例中,在区间13-15镑增长更多的测量值,之外的区间则减小更多的测量值。这与均一先验几率不一样,给出一个恰当的几率,当政的真实体重为17镑。借助非均匀的先验几率,17镑掉入分布式的尾部。乘以此几率值使得体重为17镑的似然值变低。

 

640?wx_fmt=jpeg

经过计算当政每个可能的体重几率,咱们获得一个新的后验几率。后验几率分布的峰值也叫最大后验几率(MAP),本例为14.1镑。这和均一先验几率有明显的不一样。此峰值更窄,有助于咱们作出一个更可信的估测。如今来看,小狗当政的体重变化不大,它的体型依旧如前。

 

经过吸取已有的测量认知,咱们能够作出一个更加准确的估测,其可信度高于其余方法。这有助于咱们更好地使用小量数据集。先验几率赋予17.5镑的测量值是一个比较低的几率。这几乎等同于反对此偏离正常值的测量值。不一样于直觉和常识的异常检测方式,贝叶斯定理有助于咱们采用数学的方式进行异常检测。

 

另外,假定术语P(m)是均一的,但恰巧咱们知道称量存在某种程度的偏好,这将反映在P(m)中。若称量仅输出某些数字,或返回读数2.0,占整个时间的百分之10,或第三次尝试产生一个随机测量值,均须要手动修改P(m)以反映这一现象,以便后验几率更加准确。

 

规避贝叶斯陷阱

 

探究Reign的真实体重体现了贝叶斯的优点。但这也存在某些陷阱。经过一些假设咱们改进了估测,而测量某些事物的目的就是为了了解它。假若咱们假定对某一答案有所了解,咱们可能会删改此数据。马克·吐温对强先验的危害作了简明地阐述,“将你陷入困境的不是你所不知道的,而是你知道的那些看似正确的东西。”

 

假如采起强先验假设,当Reign的体重在13与15镑之间,再假如其真实体重为12.5镑,咱们将没法探测到。先验认知认为此结果的几率为零,不论作多少次测量,低于13镑的测量值都认为无效。

 

幸运的是,有一种两面下注的办法,能够规避这种盲目地删除。针对对于每个结果至少赋予一个小的几率,假若借助物理领域的一些奇思妙想,当政确实能称到1000镑,那咱们收集的测量值也能反映在后验几率中。这也是正态分布做为先验几率的缘由之一。此分布集中了咱们对一小撮结果的大多数认识,无论怎么延展,其尾部再长都不会为零。

 640?wx_fmt=jpeg

在此,红桃皇后是一个很好的榜样:

 

爱丽丝笑道:“试了也没用,没人会相信那些不存在的事情。”

 

“我敢说你没有太多的练习”,女王回应道,“我年轻的时候,一天中的一个半小时都在闭上眼睛,深呼吸。为什么,那是由于有时在早饭前,我已经意识到存在六种不可能了。”来自刘易斯·卡罗尔的《爱丽丝漫游奇境》

原文:https://blog.csdn.net/FnqTyr45/article/details/78163780 

相关文章
相关标签/搜索