朴素贝叶斯

一、几率

一、条件几率

对于条件几率,咱们有:函数

表示在b已知的状况下(条件)发生a的几率。spa

二、几率的乘法法则

三、独立事件同时发生的几率

二、贝叶斯定理

贝叶斯定理联系先验几率和后验几率:3d

p(A|B)表示在B发生的状况下A发生的几率。blog

P(A)指先验几率;P(B|A)为似然函数,形式同条件几率;P(B)也为先验几率,可经过全几率公式计算获得;p(A|B)为后验几率。事件

不一样:变量

①先验几率:事件发生前的预判几率。能够是基于历史数据的统计,能够由背景常识得出,也能够是人的主观观点给出。通常都是单独事件几率。技巧

②后验几率:事件发生后求的反向条件几率。或者说,基于先验几率求得的反向条件几率。数据类型

③似然函数:是根据已知结果去推测固有性质的可能性(likelihood),是对固有性质的拟合程度。方法

在分类问题中,其可记作:im

p(ci|X)表示在给出数据X的条件下,其属于ci的几率。 p(X|ci)可称为类条件几率密度函数,p(X)可称为全几率密度,经过全几率公式获得:

基于贝叶斯准则,为数据X的分类。因为全几率对于全部的p(ci|X)都相同,所以只须要比较分子的大小便可。

三、朴素贝叶斯假设-条件独立性假设

即X表示某个数据的n维特征,p(X|ci)能够把X中的特征展开表示:

 

该假设为X的全部特征都相互独立,则:

对于离散型的特征,一般须要求其每个取值的几率。而对于连续型特征,则将其离散化。

四、特征模型

约定:

样本数为m,ci类别的样本数为mi,总类别个数为C。

第i个样本的特征总数为αi,其第j个特征取值状况有βj种。

所有不一样特征共A种,第j种特征xj取值状况共Bj种,其第k种取值记为Bik。全部特征不一样取值状况总和记为B。

一、多项式模型

①适用数据类型

离散值。即对应的特征为离散的。好比性别(取值为男、女)、学历(小学、高中、本科、专科、硕士、博士、博士后)。

②模型介绍

该模型在一些书中也称为词袋模型。须要统计每一个特征取值的样本数目。

在多项式模型中,一般含有平滑项σ,有:

表示在类别ci中,特征xj取值为Bk的几率; mi表示类别为ci的样本数; 表示类别为ci的样本中,特征xj取值为Bjk的样本数目;B表示全部特征的不一样取值的总和;C为总类别个数。

σ=0时,表示不作平滑处理。

σ=1时,称为拉普拉斯平滑(Laplace平滑)。可以防止为0而致使的后验几率为0的状况。

0<σ<1时,称为Lidstone平滑。

对于文本分类,则有:

mi表示类别为ci的词向量中全部出现单词的总和;表示类别为ci的全部词向量中单词xj出现的次数。

对于所预测的某个词向量,其可能并未包含全部词汇表的词,则只需将其出现的xj来计算

二、伯努利模型

 

①适用数据类型

离散值。

②模型介绍

该模型在有些书中也被称为词集模型。其与多项式模型相似,不过该模型中,每一个特征取值只能为1或0,表示出现与否(对于文本分类而言,1表示某个单词出如今该文本中,0则表示没有出现),其所有特征取自全局。固然对于特征取值大于2的状况,须要自定义必定的阈值来判断0和1的取值状况。

三、高斯模型

①适用数据类型

连续型。好比身高等。

②模型介绍

高斯模型假设每一维特征都服从高斯分布(正态分布):

其中,μ表示类别为ci、特征xj的均值;

σ2为类别为ci、特征xj的方差。

Bjk是连续型变量xj的某一个取值。

所以,只需对于样本数据获得每一个类别中每一个连续型特征的均值和方差,也就是获得正态分布的密度函数。有了密度函数,就能够把某个预测数据的该连续性特征的值代入,算出某一点的密度函数的值。

五、处理技巧

有时会遇到下溢出问题,即太小,致使全部太小的数的乘积结果因为舍入为0。这时可使用取对数的方法避免下溢出或浮点舍入致使的错误:

 

最后选取值最大的所对应类别即为预测类别。

相关文章
相关标签/搜索