贝叶斯概念

1.贝叶斯法则机器学习

机器学习的任务:在给定训练数据D时,肯定假设空间H中的最佳假设。学习

最佳假设:一种方法是把它定义为在给定数据D以及H中不一样假设的先验几率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设几率的方法,基于假设的先验几率、给定假设下观察到不一样数据的几率以及观察到的数据自己。测试

2.先验几率和后验几率对象

用P(h)表示在没有训练数据前假设h拥有的初始几率。P(h)被称为h的先验几率。先验几率反映了关于h是一正确假设的机会的背景知识若是没有这一先验知识,能够简单地将每一候选假设赋予相同的先验几率。相似地,P(D)表示训练数据D的先验几率,P(D|h)表示假设h成立时D的几率。机器学习中,咱们关心的是P(h|D),即给定D时h的成立的几率,称为h的后验几率。map

3.贝叶斯公式方法

贝叶斯公式提供了从先验几率P(h)、P(D)和P(D|h)计算后验几率P(h|D)的方法数据

p(h|D)=P(D|H)*P(H)/P(D)样式

P(h|D)随着P(h)和P(D|h)的增加而增加,随着P(D)的增加而减小,即若是D独立于h时被观察到的可能性越大,那么D对h的支持度越小。集合

4.极大后验假设

学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)肯定MAP的方法是用贝叶斯公式计算每一个候选假设的后验几率,计算式以下:

h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H)

最后一步,去掉了P(D),由于它是不依赖于h的常量。

5.极大似然假设

在某些状况下,可假定H中每一个假设有相同的先验几率,这样式子能够进一步简化,只需考虑P(D|h)来寻找极大可能假设。

h_ml = argmax p(D|h)  h属于集合H

P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设。

6.举例

考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设咱们已经有先验知识:在全部人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。

上面的数据能够用如下几率式子表示:

P(cancer)=0.008,P(无cancer)=0.992

P(阳性|cancer)=0.98,P(阴性|cancer)=0.02

P(阳性|无cancer)=0.03,P(阴性|无cancer)=0.97

假设如今有一个新病人,化验测试返回阳性,是否将病人判定为有癌症呢?咱们能够来计算极大后验假设:

P(阳性|cancer)p(cancer)=0.98*0.008 = 0.0078

P(阳性|无cancer)*p(无cancer)=0.03*0.992 = 0.0298

所以,应该判断为无癌症。

贝叶斯推理的结果很大程度上依赖于先验几率,另外不是彻底接受或拒绝假设,只是在观察到较多的数据后增大或减少了假设的可能性。

 

贝叶斯分类具备以下特色:

(1)贝叶斯分类并不把一个对象绝对地指派给某一类,而是经过计算得出属于某一类的几率,具备最大几率的类即是该对象所属的类

(2)通常状况下在贝叶斯分类中全部的属性都潜在地起做用,即并非一个或几个属性决定分类,而是全部的属性都参与分类

(3) 贝叶斯分类对象的属性能够是离散的、连续的,也能够是混合的。

贝叶斯定理给出了最小化偏差的最优解决方法,可用于分类和预测。理论上,它看起来很完美,但在实际中,它并不能直接利用,它须要知道证据的确切分布几率,而实际上咱们并不能确切的给出证据的分布几率。所以咱们在不少分类方法中都会做出某种假设以逼近贝叶斯定理的要求。

相关文章
相关标签/搜索