100天搞定机器学习|Day15 朴素贝叶斯

时间 2019-11-08

标签 100天搞定机器学习 day15 day 朴素贝叶繁體版

原文原文链接

Day15，开始学习朴素贝叶斯，先了解一下贝爷，以示敬意。python

托马斯·贝叶斯 (Thomas Bayes),英国神学家、数学家、数理统计学家和哲学家，1702年出生于英国伦敦，作过神甫；1742年成为英国皇家学会会员；1763年4月7日逝世。贝叶斯曾是对几率论与统计的早期发展有重大影响的两位（贝叶斯和布莱斯·帕斯卡Blaise Pascal）人物之一。正则表达式

贝叶斯在数学方面主要研究几率论。他首先将概括推理法用于几率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等作出了贡献。1763年发表了这方面的论著，对于现代几率论和数理统计都有很重要的做用。贝叶斯的《An essay towards solving a problem in the doctrine of chances》发表于1758年，贝叶斯所采用的许多术语被沿用至今。贝叶斯对统计推理的主要贡献是使用了"逆几率"这个概念，并把它做为一种广泛的推理方法提出来，即贝叶斯定理。算法

1、回顾几率统计基础知识

独立事件：在一次实验中，一个事件的发生不会影响到另外一事件发生的几率，两者没有任何关系。若是A1,A2,A3…An相互独立，则A1~ An同时发生的几率：app

条件几率：指在A事件发生的条件下，事件B发生的几率，用符号表示：dom

全几率公式：若是事件A一、A二、A3…An 构成一个完备事件组，即它们两两互不相容，其和为全集Ω；而且P(Ai) > 0，则对任一试验B有：机器学习

其余几率基础，你们若有兴趣请移步：ide

【温故知新】几率笔记1——独立事件下的简单几率函数

2、贝叶斯定理

贝叶斯定理（Bayes’s Rule）：若是有k个互斥且有穷个事件 B1,B2···，Bk，而且，P (B1) + P(B2) + · · · + P(Bk) = 1和一个能够观测到的事件A，那么有：

这就是贝叶斯公式，其中：

P(Bi) 为先验几率，即在获得新数据前某一假设的几率;

P(Bi|A) 为后验几率，即在观察到新数据后计算该假设的几率;

P(A|Bi)为似然度，即在该假设下获得这一数据的几率;

P(A)为标准化常量，即在任何假设下获得这一数据的几率。

证实起来也不复杂

一、根据条件几率的定义，在事件 B 发生的条件下事件 A 发生的几率为：

二、一样地，在事件 A 发生的条件下事件 B 发生的几率为：

三、结合这两个方程式，咱们能够获得：

四、上式两边同除以 P(A)，若P(A)是非零的，咱们能够获得贝叶斯定理:

在B出现的前提下，A出现的几率等于A出现的前提下B出现的几率乘以A出现的几率再除以 B 出现的几率。经过联系 A 与 B，计算从一个事件发生的状况下另外一事件发生的几率，即从结果上溯到源头（也即逆向几率）。

贝叶斯公式以及由此发展起来的一整套理论与方法，在几率统计中被称为贝叶斯学派，与几率学派有着彻底不一样思考问题方式。

频率学派：研究的是事件自己，因此研究者只能反复试验去逼近它从而获得结果。好比：想要计算抛掷一枚硬币时正面朝上的几率，咱们须要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的几率。

贝叶斯学派：研究的是观察者对事物的见解，因此你能够用先验知识和收集到的信息去描述他，而后用一些证据去证实它。仍是好比抛硬币，当小明知道一枚硬币是均匀的，而后赋予下一次抛出结果是正面或反面都是50%的可信度（几率分布），多是出于认为均匀硬币最多见这种信念，而后好比小明随机抛了1000次，发现结果正是这样，那么它就经过这些证据验证了本身的先验知识。（也有存在修改的时候，好比发现硬币的材质不一致，总之就是这么一个过程）

举个例子

假设有两个各装了100个球的箱子，甲箱子中有70个红球，30个绿球，乙箱子中有30个红球，70个绿球。假设随机选择其中一个箱子，从中拿出一个球记下球色再放回原箱子，如此重复12次，记录获得8次红球，4次绿球。问题来了，你认为被选择的箱子是甲箱子的几率有多大？

刚开始选择甲乙两箱子的先验几率都是50%，由于是随机二选一（这是贝叶斯定理二选一的特殊形式）。即有：

P(甲) = 0.5， P(乙) = 1 - P(甲)；

这时在拿出一个球是红球的状况下，咱们就应该根据这个信息来更新选择的是甲箱子的先验几率：

P(甲|红球1) = P(红球|甲) × P(甲) / (P(红球|甲) × P(甲) + (P(红球|乙) × P(乙)))

P(红球|甲)：甲箱子中拿到红球的几率

P(红球|乙)：乙箱子中拿到红球的几率

所以在出现一个红球的状况下，选择的是甲箱子的先验几率就可被修正为：

P(甲|红球1) = 0.7 × 0.5 / (0.7 × 0.5 + 0.3 × 0.5) = 0.7

即在出现一个红球以后，甲乙箱子被选中的先验几率就被修正为：

P(甲) = 0.7， P(乙) = 1 - P(甲) = 0.3；

如此重复，直到经历8次红球修正（几率增长），4此绿球修正（几率减小）以后，选择的是甲箱子的几率为：96.7%。

Python 代码来解这个问题：

def bayesFunc(pIsBox1, pBox1, pBox2):
return (pIsBox1 * pBox1)/((pIsBox1 * pBox1) + (1 - pIsBox1) * pBox2)
def redGreenBallProblem():
pIsBox1 = 0.5
# consider 8 red ball
for i in range(1, 9):
pIsBox1 = bayesFunc(pIsBox1, 0.7, 0.3)
print " After red %d > in 甲 box: %f" % (i, pIsBox1)
# consider 4 green ball
for i in range(1, 5):
pIsBox1 = bayesFunc(pIsBox1, 0.3, 0.7)
print " After green %d > in 甲 box: %f" % (i, pIsBox1)
redGreenBallProblem()复制代码

运行结果以下：

After red 1 > in 甲 box: 0.700000
After red 2 > in 甲 box: 0.844828
After red 3 > in 甲 box: 0.927027
After red 4 > in 甲 box: 0.967365
After red 5 > in 甲 box: 0.985748
After red 6 > in 甲 box: 0.993842
After red 7 > in 甲 box: 0.997351
After red 8 > in 甲 box: 0.998863
After green 1 > in 甲 box: 0.997351
After green 2 > in 甲 box: 0.993842
After green 3 > in 甲 box: 0.985748
After green 4 > in 甲 box: 0.967365复制代码

很明显能够看到红球的出现是增长选择甲箱子的几率，而绿球则相反。

3、朴素贝叶斯算法

朴素贝叶斯（Naive Bayesian）是基于贝叶斯定理和特征条件独立假设的分类方法，它经过特征计算分类的几率，选取几率大的状况进行分类，所以它是基于几率论的一种机器学习分类方法。由于分类的目标是肯定的，因此也是属于监督学习。朴素贝叶斯假设各个特征之间相互独立，因此称为朴素。它简单、易于操做，基于特征独立性假设，假设各个特征不会相互影响，这样就大大减少了计算几率的难度。

朴素贝叶斯算法的执行流程以下:
1)设
为待分类项,其中a为x的一个特征属性

2)类别集合为:

3)根据贝叶斯公式,计算

4)若是,则x属于这一类.

高斯朴素贝叶斯(通常使用在特征属性连续的状况下)

上面的算法流程中能够看出,朴素贝叶斯算法就是对贝叶斯公式的一种运用,它没有进行任何的改变.

复制代码

在计算条件几率时,对于离散的数据特征可使用大数定理(频率代替几率的思想).可是,怎么处理连续的特征呢?这里咱们通常使用高斯朴素贝叶斯.

复制代码

所谓高斯朴素贝叶斯,就是当特征属性为连续值而且服从高斯分布时,可使用高斯分布的几率公式直接计算条件几率的值。

![](http://pv7b47pv6.bkt.clouddn.com/FgRK7v56zRYRJxTGhcPZNSSYkze6)复制代码

此时,咱们只须要计算各个类别下的特征划分的均值和标准差.

复制代码

多项式朴素贝叶斯(通常使用在特征属性离散的状况下)

所谓多项式朴素贝叶斯,就是特征属性服从多项式分布,进而对于每个类别y,参数![](http://pv7b47pv6.bkt.clouddn.com/Fq7i2mbWOItWwUyfuu79mCX9B4Oa)
，其中n为特征属性数目，那么P(xi|y)的几率为θyi。复制代码

伯努利朴素贝叶斯(通常使用在缺失值较多的状况下)

与多项式模型同样，伯努利模型适用于离散特征的状况，所不一样的是，伯努利模型中每一个特征的取值只能是1和0(以文本分类为例，某个单词在文档中出现过，则其特征值为1，不然为0).复制代码

4、朴素贝叶斯实战

sklearn中有3种不一样类型的朴素贝叶斯：

高斯分布型：用于classification问题，假定属性/特征服从正态分布的。

多项式型：用于离散值模型里。好比文本分类问题里面咱们提到过，咱们不光看词语是否在文本中出现，也得看出现次数。若是总词数为n，出现词数为m的话，有点像掷骰子n次出现m次这个词的场景。

伯努利型：最后获得的特征只有0(没出现)和1(出现过)。

极简Scikit-Learn入门

例1 咱们使用iris数据集进行分类

from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score
from sklearn import datasets
iris = datasets.load_iris()
gnb = GaussianNB()
scores=cross_val_score(gnb, iris.data, iris.target, cv=10)
print("Accuracy:%.3f"%scores.mean())复制代码

输出: Accuracy:0.953

例2 Kaggle比赛之“旧金山犯罪分类预测”

题目背景：『水深火热』的大米国，在旧金山这个地方，一度犯罪率还挺高的，而后不少人都经历过大到暴力案件，小到东西被偷，车被划的事情。当地警方也是努力地去总结和想办法下降犯罪率，一个挑战是在给出犯罪的地点和时间的以后，要第一时间肯定这多是一个什么样的犯罪类型，以肯定警力等等。后来干脆一不作二不休，直接把12年内旧金山城内的犯罪报告都丢带Kaggle上，说『你们折腾折腾吧，看看谁能帮忙第一时间预测一下犯罪类型』。犯罪报告里面包括日期，描述，星期几，所属警区，处理结果，地址，GPS定位等信息。固然，分类问题有不少分类器能够选择，咱们既然刚讲过朴素贝叶斯，恰好就拿来练练手好了。

(1) 首先咱们来看一下数据

import pandas as pd  
import numpy as np  
from sklearn import preprocessing  
from sklearn.metrics import log_loss  
from sklearn.cross_validation import train_test_split
train = pd.read_csv('/Users/liuming/projects/Python/ML数据/Kaggle旧金山犯罪类型分类/train.csv', parse_dates = ['Dates'])  
test = pd.read_csv('/Users/liuming/projects/Python/ML数据/Kaggle旧金山犯罪类型分类/test.csv', parse_dates = ['Dates'])  
train  复制代码

咱们依次解释一下每一列的含义：

Date: 日期Category: 犯罪类型，好比 Larceny/盗窃罪等.Descript: 对于犯罪更详细的描述DayOfWeek: 星期几PdDistrict: 所属警区Resolution: 处理结果，好比说『逮捕』『逃了』Address: 发生街区位置X and Y: GPS坐标train.csv中的数据时间跨度为12年，包含了将近90w的记录。另外，这部分数据，你们从上图上也能够看出来，大部分都是『类别』型，好比犯罪类型，好比星期几。（2）特征预处理sklearn.preprocessing模块中的 LabelEncoder函数能够对类别作编号，咱们用它对犯罪类型作编号；pandas中的get_dummies( )能够将变量进行二值化01向量，咱们用它对”街区“、”星期几“、”时间点“进行因子化。

#对犯罪类别:Category; 用LabelEncoder进行编号  
leCrime = preprocessing.LabelEncoder()  
crime = leCrime.fit_transform(train.Category)   #39种犯罪类型  
#用get_dummies因子化星期几、街区、小时等特征  
days=pd.get_dummies(train.DayOfWeek)  
district = pd.get_dummies(train.PdDistrict)  
hour = train.Dates.dt.hour  
hour = pd.get_dummies(hour)  
#组合特征  
trainData = pd.concat([hour, days, district], axis = 1)  #将特征进行横向组合  
trainData['crime'] = crime   #追加'crime'列  
days = pd.get_dummies(test.DayOfWeek)  
district = pd.get_dummies(test.PdDistrict)  
hour = test.Dates.dt.hour  
hour = pd.get_dummies(hour)  
testData = pd.concat([hour, days, district], axis=1)  
trainData 复制代码

特征预处理后，训练集feature，以下图所示：

(3) 建模

from sklearn.naive_bayes import BernoulliNB
import time
features=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday', 'BAYVIEW', 'CENTRAL', 'INGLESIDE', 'MISSION',  
 'NORTHERN', 'PARK', 'RICHMOND', 'SOUTHERN', 'TARAVAL', 'TENDERLOIN']  
X_train, X_test, y_train, y_test = train_test_split(trainData[features], trainData['crime'], train_size=0.6)  
NB = BernoulliNB()  
nbStart = time.time()  
NB.fit(X_train, y_train)  
nbCostTime = time.time() - nbStart  
#print(X_test.shape)  
propa = NB.predict_proba(X_test)   #X_test为263415*17；那么该行就是将263415分到39种犯罪类型中，每一个样本被分到每一种的几率  
print("朴素贝叶斯建模%.2f秒"%(nbCostTime))  
predicted = np.array(propa)  
logLoss=log_loss(y_test, predicted)  
print("朴素贝叶斯的log损失为:%.6f"%logLoss)  复制代码

输出：朴素贝叶斯建模0.55秒朴素贝叶斯的log损失为:2.582561

例3 文本分类——垃圾邮件过滤

收集数据：提供文本文件准备数据：将文本文件解析成词条向量分析数据；检查词条确保解析的正确性训练算法：使用以前创建的trainNB0()函数测试算法：使用classifyNB()，而且构建一个新的测试函数来计算文档集的错误率使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上

准备数据：切分文本

使用正则表达式切分，其中分隔符是除单词、数字外的任意字符

import re
mySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon.'
regEx = re.compile('\\W*')
listOfTokens = regEx.split(mySent)
# 去掉长度小于0的单词，并转换为小写
[tok.lower() for tok in listOfTokens if len(tok) > 0]
[out]
['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python', 'or', 'm', 'l', 'i', 'have', 'ever', 'laid', 'eyes', 'upon']复制代码

切分邮件

emailText = open('email/ham/6.txt').read()
listOfTokens = regEx.split(emailText)复制代码

测试算法：使用朴素贝叶斯进行交叉验证

import randomdef textParse(bigString):
    '''
    字符串解析
    '''
    import re    # 根据非数字字母的任意字符进行拆分
    listOfTokens = re.split(r'\W*', bigString)    # 拆分后字符串长度大于2的字符串，并转换为小写
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]def spamTest():
    '''
    贝叶斯分类器对垃圾邮件进行自动化处理
    '''
    docList = []
    classList = []
    fullText = []    for i in range(1, 26):        # 读取spam文件夹下的文件，并转换为特征和标签向量
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)        # 读取ham文件夹下的文件，并转换为特征和标签向量
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)    # 转换为词列表
    vocabList = createVocabList(docList)    # 初始化训练集和测试集
    trainingSet = range(50);
    testSet = []    # 随机抽取测试集索引
    for i in range(10):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])        del(trainingSet[randIndex])

    trainMat = []
    trainClasses = []    # 构造训练集
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])    # 朴素贝叶斯分类模型训练
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0

    # 朴素贝叶斯分类模型测试
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
            print 'classification error', docList[docIndex]    print 'the error rate is: ',float(errorCount)/len(testSet)复制代码

因为SpamTest()构造的测试集和训练集是随机的，因此每次运行的分类结果可能不同。若是发生错误，函数会输出错分文档的词表，这样就能够了解到底哪篇文档发生了错误。这里出现的错误是将垃圾邮件误判为了正常邮件。

import randomdef textParse(bigString):
    '''
    字符串解析
    '''
    import re    # 根据非数字字母的任意字符进行拆分
    listOfTokens = re.split(r'\W*', bigString)    # 拆分后字符串长度大于2的字符串，并转换为小写
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]def spamTest():
    '''
    贝叶斯分类器对垃圾邮件进行自动化处理
    '''
spamTest()
[out]
classification error ['benoit', 'mandelbrot', '1924', '2010', 'benoit', 'mandelbrot', '1924', '2010', 'wilmott', 'team', 'benoit', 'mandelbrot', 'the', 'mathematician', 'the', 'father', 'fractal', 'mathematics', 'and', 'advocate', 'more', 'sophisticated', 'modelling', 'quantitative', 'finance', 'died', '14th', 'october', '2010', 'aged', 'wilmott', 'magazine', 'has', 'often', 'featured', 'mandelbrot', 'his', 'ideas', 'and', 'the', 'work', 'others', 'inspired', 'his', 'fundamental', 'insights', 'you', 'must', 'logged', 'view', 'these', 'articles', 'from', 'past', 'issues', 'wilmott', 'magazine']
the error rate is:  0.1spamTest()
[out]
the error rate is:  0.0复制代码

参考文献：

https://blog.csdn.net/fisherming/article/details/79509025https://blog.csdn.net/qq_32241189/article/details/80194653http://blog.csdn.net/kesalin/article/details/40370325