朴素贝叶斯（一）

时间 2019-11-19

标签朴素贝叶繁體版

原文原文链接

1、概述与实例算法

贝叶斯定理被应用于各类各样的场景下，例如疾病预测、垃圾邮件分类、新闻分类、自动驾驶……oop

固然我不是搞数学的，我这里只是就应用的角度来谈谈朴素贝叶斯的使用，朴素贝叶斯中一个重要的假设：各个因素相互独立。大数据

贝叶斯定理就一句话：P(B|A)=P(A|B)P(B)/P(A)，它描述了在A条件发生的状况下B发生的几率，或许直接看公式有点懵圈，下面请看这样一个例子：博客

有一组统计数据是描述小明上班是否会迟到：数学

今天，下雨、交通堵塞，咱们来预测一下小明上班是否会迟到。这里咱们假设各个因素之间相互独立。

一、在下雨、交通堵塞的状况下迟到的几率：

P(迟到|下雨×交通堵塞)=P(下雨×交通堵塞|迟到)×P(迟到)/P(下雨×交通堵塞)

=P(下雨|迟到)×p(交通堵塞|迟到)×P(迟到)/P(下雨)p(交通堵塞)

=(1/2×1/2×2/5)/(3/5×2/5)=5/12

二、在下雨、交通堵塞的状况下不迟到的几率：

P(不迟到|下雨×交通堵塞)=P(下雨×交通堵塞|不迟到)×P(不迟到)/P(下雨×交通堵塞)

=P(下雨|不迟到)×p(交通堵塞|不迟到)×P(不迟到)/P(下雨)p(交通堵塞)

=(2/3×1/3×3/5)/(3/5×2/5)=5/9

那么我基于这组数据，更倾向于小明今天不会迟到。

若是样本足够大，那么结果更趋近于真相。这就是朴素贝叶斯。

2、简化

一、假设一组数据有因子集合{P1,P2,……Pn}能够肯定该数据属于分类C，那么

p(C|P1P2……Pn)=p(P1P2...Pn|C)P(C) / p(P1P1...Pn)

二、因为p(P1P1...Pn)对于全部类别C都是相同的，那么就等价于求

p(P1P1...Pn|C)P(C) 的最大值

三、假设条件相互独立

p(P1P1...Pn|C)P(C) =p(P1|C)*p(P2|C)*p(Pn|C)*p(C)

四、最终问题简化为求p(P1|C)*p(P2|C)*p(Pn|C)*p(C)的最大值

3、问题

问题简化以后，单机版的朴素贝叶斯很好实现，可是处理大规模数据，仍是显得爱莫能助。

大数据技术发展，给了咱们运算全量数据的能力，那么基于Hadoop MapReduce模型的朴素贝叶斯算法该如何实现呢？请关注下一篇《朴素贝叶斯（二）》。

快乐源于分享。

此博客乃做者原创，转载请注明出处