朴素贝叶斯分类器 极大似然估计的应用

上一篇文章极大似然估计的应用已经说明了,后验几率的求解难点在于类条件几率的估计很是难。html

p(x | w)中的x每每包含多个相关因素(是一个多种因素构成的向量),即它可能有多个须要考虑的属性值:x=(x1,x2,x3,...,xn)。post

任一xi都表明了全部相关因素中的其中一个。在癌症辅助判断中,它多是患者的年龄,也多是患者的性别,也多是患者是否吸烟等等。所以当x是一个向量时,咱们若要计算P(x|c),实际上就是要计算P(x1,x2,x3,...,xn∣c) 。这个理论上也是能够利用咱们的数据集D来进行估计的,可是现实状况是,n的值每每很是大(属性很是多),而咱们的数据集每每不能保证咱们的样本包含了属性值的全部可能组合(假设每一个属性都是二值属性,那么就有2^n种属性组合)。那么不少p(x|c)咱们估计获得的值就是0。然而这些样本极可能仅仅是咱们的数据集中没包含到,即“未被观测到”,但不表明它们现实中“出现几率为0”。因而这就给咱们计算出真实合理的目标p(c|x)值形成了障碍。url

因而,朴素贝叶斯的“朴素”就发挥做用了。咱们为了可以得到合理的p(x|c)的值,采用了“很不科学”的属性条件独立性假设。spa

这个假设用公式表达式这样的:htm

属性条件独立性假设其实是忽略掉了某些属性之间可能存在的关联,假设属性的取值可能性都是独立的。可是,因为朴素贝叶斯分类器在这种naive的假设下仍能在实际问题中取得比较好的效果,所以这个假设的不合理性也就能够暂时放下不谈了。blog

相关文章
相关标签/搜索