朴素贝叶斯算法

时间 2019-11-09

标签朴素贝叶算法繁體版

原文原文链接

1.一、摘要

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文做为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。而后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，经过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。算法

1.二、分类问题综述

对于分类问题，其实谁都不会陌生，说咱们每一个人天天都在执行分类操做一点都不夸张，只是咱们没有意识到罢了。例如，当你看到一个陌生人，你的脑子下意识判断TA是男是女；你可能常常会走在路上对身旁的朋友说“这我的一看就颇有钱、那边有个非主流”之类的话，其实这就是一种分类操做。数据库

从数学角度来讲，分类问题可作以下定义：运维

已知集合： $C=\{y_1,y_2,...,y_n\}$ 和 $I=\{x_1,x_2,...,x_m,...\}$ ，肯定映射规则，使得任意 $x_i \in I$ 有且仅有一个 $y_j \in C$ 使得成立。（不考虑模糊数学里的模糊集状况）测试

其中C叫作类别集合，其中每个元素是一个类别，而I叫作项集合，其中每个元素是一个待分类项，f叫作分类器。分类算法的任务就是构造分类器f。 spa

这里要着重强调，分类问题每每采用经验性方法构造映射规则，即通常状况下的分类问题缺乏足够的信息来构造100%正确的映射规则，而是经过对经验数据的学习从而实现必定几率意义上正确的分类，所以所训练出的分类器并非必定能将每一个待分类项准确映射到其分类，分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。日志

例如，医生对病人进行诊断就是一个典型的分类过程，任何一个医生都没法直接看到病人的病情，只能观察病人表现出的症状和各类化验检测数据来推断病情，这时医生就比如一个分类器，而这个医生诊断的准确率，与他当初受到的教育方式（构造方法）、病人的症状是否突出（待分类数据的特性）以及医生的经验多少（训练样本数量）都有密切关系。 blog

1.三、贝叶斯分类的基础——贝叶斯定理

每次提到贝叶斯定理，我心中的崇敬之情都油然而生，倒不是由于这个定理多高深，而是由于它特别有用。这个定理解决了现实生活里常常遇到的问题：已知某条件几率，如何获得两个事件交换后的几率，也就是在已知P(A|B)的状况下如何求得P(B|A)。这里先解释什么是条件几率：事件

表示事件B已经发生的前提下，事件A发生的几率，叫作事件B发生下事件A的条件几率。其基本求解公式为： $P(A|B)=\frac{P(AB)}{P(B)}$ 。 get

下面不加证实地直接给出贝叶斯定理：

$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

1.四、朴素贝叶斯分类

1.4.一、朴素贝叶斯分类的原理与流程

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是由于这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的几率，哪一个最大，就认为此待分类项属于哪一个类别。通俗来讲，就比如这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为何呢？由于黑人中非洲人的比率最高，固然人家也多是美洲人或亚洲人，但在没有其它可用信息下，咱们会选择条件几率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的正式定义以下：

一、设 $x=\{a_1,a_2,...,a_m\}$ 为一个待分类项，而每一个a为x的一个特征属性。

二、有类别集合 $C=\{y_1,y_2,...,y_n\}$ 。

三、计算。

四、若是 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$ ，则 $x \in y_k$ 。

那么如今的关键就是如何计算第3步中的各个条件几率。咱们能够这么作：

一、找到一个已知分类的待分类项集合，这个集合叫作训练样本集。

二、统计获得在各种别下各个特征属性的条件几率估计。即。

三、若是各个特征属性是条件独立的，则根据贝叶斯定理有以下推导：

$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$

由于分母对于全部类别为常数，由于咱们只要将分子最大化皆可。又由于各特征属性是条件独立的，因此有：

$P(x|y_i)P(y_i)=P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i)\prod^m_{j=1}P(a_j|y_i)$

根据上述分析，朴素贝叶斯分类的流程能够由下图表示（暂时不考虑验证）：

能够看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工做阶段，这个阶段的任务是为朴素贝叶斯分类作必要的准备，主要工做是根据具体状况肯定特征属性，并对每一个特征属性进行适当划分，而后由人工对一部分待分类项进行分类，造成训练样本集合。这一阶段的输入是全部待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中惟一须要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工做是计算每一个类别在训练样本中的出现频率及每一个特征属性划分对每一个类别的条件几率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式能够由程序自动计算完成。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

1.4.二、估计类别下特征属性划分的条件几率及Laplace校准

这一节讨论P(a|y)的估计。

由上文看出，计算各个划分的条件几率P(a|y)是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每一个类别中出现的频率便可用来估计P(a|y)，下面重点讨论特征属性是连续值的状况。

当特征属性为连续值时，一般假定其值服从高斯分布（也称正态分布）。即：

$g(x,\eta ,\sigma )=\frac{1}{\sqrt{2\pi }\sigma }e^-\frac{(x-\eta)^2}{2\sigma^2}$

而 $P(a_k|y_i)=g(a_k,\eta_{y_i},\sigma_{y_i})$

所以只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式便可获得须要的估计值。均值与标准差的计算在此再也不赘述。

另外一个须要讨论的问题就是当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大下降。为了解决这个问题，咱们引入Laplace校准，它的思想很是简单，就是对没类别下全部划分的计数加1，这样若是训练样本集数量充分大时，并不会对结果产生影响，而且解决了上述频率为0的尴尬局面。

1.4.三、朴素贝叶斯分类实例：检测SNS社区中不真实帐号

下面讨论一个使用朴素贝叶斯分类解决实际问题的例子，为了简单起见，对例子中的数据作了适当的简化。

这个问题是这样的，对于SNS社区来讲，不真实帐号（使用虚假身份或用户的小号）是一个广泛存在的问题，做为SNS社区的运营商，但愿能够检测出这些不真实帐号，从而在一些运营分析报告中避免这些帐号的干扰，亦能够增强对SNS社区的了解与监管。

若是经过纯人工检测，须要耗费大量的人力，效率也十分低下，如能引入自动检测机制，必将大大提高工做效率。这个问题说白了，就是要将社区中全部帐号在真实帐号和不真实帐号两个类别上进行分类，下面咱们一步一步实现这个过程。

首先设C=0表示真实帐号，C=1表示不真实帐号。

一、肯定特征属性及划分

这一步要找出能够帮助咱们区分真实帐号与不真实帐号的特征属性，在实际应用中，特征属性的数量是不少的，划分也会比较细致，但这里为了简单起见，咱们用少许的特征属性以及较粗的划分，并对数据作了修改。

咱们选择三个特征属性：a1：日志数量/注册天数，a2：好友数量/注册天数，a3：是否使用真实头像。在SNS社区中这三项都是能够直接从数据库里获得或计算出来的。

下面给出划分：a1：{a<=0.05, 0.05<a<0.2, a>=0.2}，a1：{a<=0.1, 0.1<a<0.8, a>=0.8}，a3：{a=0（不是）,a=1（是）}。

二、获取训练样本

这里使用运维人员曾经人工检测过的1万个帐号做为训练样本。

三、计算训练样本中每一个类别的频率

用训练样本中真实帐号和不真实帐号数量分别除以一万，获得：

四、计算每一个类别条件下各个特征属性划分的频率

五、使用分类器进行鉴别

下面咱们使用上面训练获得的分类器鉴别一个帐号，这个帐号使用非真实头像，日志数量与注册天数的比率为0.1，好友数与注册天数的比率为0.2。

能够看到，虽然这个用户没有使用真实头像，可是经过分类器的鉴别，更倾向于将此帐号纳入真实帐号类别。这个例子也展现了当特征属性充分多时，朴素贝叶斯分类对个别属性的抗干扰性。

1.五、分类器的评价

虽而后续还会提到其它分类算法，不过这里我想先提一下如何评价分类器的质量。

首先要定义，分类器的正确率指分类器正确分类的项目占全部被分类项目的比率。

一般使用回归测试来评估分类器的准确率，最简单的方法是用构造完成的分类器对训练数据进行分类，而后根据结果给出正确率评估。但这不是一个好方法，由于使用训练数据做为检测数据有可能由于过度拟合而致使结果过于乐观，因此一种更好的方法是在构造初期将训练数据一分为二，用一部分构造分类器，而后用另外一部分检测分类器的准确率。