为了处理这种维数太高的状况,咱们作一个假设:X的每一维特征之间都是独立的。这也就是朴素贝叶斯假设。学习
根据独立分布的条件,咱们就可以容易地写出P(d|C),以下:spa
P(d/C) = ∏ P(ti / C)文档
d表明文档,ti表明文档中的每一个词,C表明类。博客
朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)和伯努利模型(Bernoulli model)。model
先验几率在《信息检索导论》里面都是以类c下的文档数占比来衡量,而有些博客则如下面两种形式区分对待。方法
在多项式模型中, 设某文档d=(t1,t2,…,tk),tk是该文档中出现过的单词,容许重复,则:文件
先验几率P(c)= 类c下单词总数/整个训练样本的单词总数。co
类条件几率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)。V是训练样本的单词表(即抽取单词,单词出现屡次,只算一个),|V|则表示训练样本包含多少种单词。模型
P(tk|c)能够看做是单词tk在证实d属于类c上提供了多大的证据,而P(c)则能够认为是类别c在总体上占多大比例(有多大可能性)。
P(c)= 类c下文件总数/整个训练样本的文件总数
P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)
类c下包含单词tk的文件数也就是说,一个文档中单词t出现屡次可是只算做一次
两者的计算粒度不同,多项式模型以单词为粒度,伯努利模型以文件为粒度,所以两者的先验几率和类条件几率的计算方法都不一样。