贝叶斯分类器给图书分类

从问题开始:python

咱们解决的问题是,对图书进行二元分类。分类的依据是图书的tag。这样tag可能来自专家,或者编辑,或者用户。例如“外国文学”,“侦探”,“计算机”,“python”都属于tag。简化问题,咱们如今把图书分为“人文”或者“非人文”两类。c++

例如《计算机科学导论》,它的tag有“计算机”,“科学”,“经典”,“导论”,它属于“非人文”。《麦田里的守望者》,它的tag有“小说”,“文学”,“美国”,它属于“人文”。shell

基本原理:编程

贝叶斯分类器的工做原理:数组

P(a|b) = P(b|a)*P(a) / P(b)

这个意思就是:想要求P(a|b),而你又知道P(b|a),P(a),P(b)的值,那你就能够经过贝叶斯公式求得

已知一本书有些tag:tag1,tag2,tag3....它属于“人文”分类的几率是多少?属于“非人文”分类的几率呢?机器学习

假设p1表示在这种状况下,它属于“人文”的几率,p2表示这种状况下,它属于“非人文”的几率。函数

若是p1 > p2 那么就属于“人文”学习

条件几率:
spa

其实,这是一个条件几率的问题。所谓条件几率,就是求:在已知b发生的状况下,a发生的几率,咱们写做P(a|b)code

结合咱们的实际问题,那就是tag1,tag2,tag3已经发生的状况下,这本书属于“人文”和“非人文”的几率。咱们写作

P(人文|tag1,tag2,tag3...)的意思就是在tag1,tag2,tag3...发生的状况下,这本书属于“人文”

P(非人文|tag1,tag2,tag3...)的意思就是在tag1,tag2,tag3...发生的状况下,这本书属于“非人文”


P(人文|tag1,tag2,tag3...) = P(tag1,tag2,tag3...|人文) * P(人文) / P(tag1,tag2,tag3...)

==>

P(tag1,tag2,tag3...|人文) :就是你知道在一本书已经被分类了“人文”的状况,tag1,tag2,tag3...一块儿出现的几率

P(人文):就是在被标记为“人文”分类的书,(在训练集)在全部书(“人文”和“非人文”)中出现的几率

P(tag1,tag2,tag3...):也就是tag1,tag2,tag3...在(训练集)全部tag出现的几率


这里有个值得注意的技巧,其实P(tag1,tag2,tag3...),咱们不须要计算,由于咱们的目的是比较

P(人文|tag1,tag2,tag3...)  和 P(非人文|tag1,tag2,tag3...) 的大小,不是为了获得实际的值,因为上述公式中分母

P(tag1,tag2,tag3...)是同样的。因此咱们只须要比较分子的大小就能够了。

P(tag1,tag2,tag3...|人文) * P(人文)  和 P(tag1,tag2,tag3...|非人文) * P(非人文)的大小


朴素贝叶斯:

那么咱们如何计算P(tag1,tag2,tag3...|人文) 呢?这里要用到朴素贝叶斯的概念,就是说,咱们认为,在一本书中的标签里,每一个标签都是相互独立的,与对方是否出现没有关系,也就是说“计算机”和“经典”出现的几率是互不相关的,不会由于出现了“计算机”就致使“经典”的出现几率高。

P(tag1,tag2,tag3...|人文)  = P(tag1|人文) * P(tag2|人文) * P(tag3|人文) ....

也就是计算每一个tag,分别在“人文”和“非人文”书籍全部tag出现几率,而后将它们乘


举例分析:

咱们如今有一本书《计算机科学导论》,它标签是“计算机”,“科学”,“理论”,“经典”,“导论”咱们想知道这几个标签出现的状况下,《计算机科学导论》分别属于“人文”和“非人文”的几率

那么咱们已经有了什么呢?幸运的是,咱们目前有10本书,已知其中6本是“人文”,4本“非人文”。这个10本书,通过排重,一共有70个不一样的标签,“计算机”,“科学”,“理论”,“导论”也在其中。

基于此,咱们能够得出,P(人文)=6/10=0.6  P(非人文)=1-0.6=0.4 也就是说“人文”书在全部的书的概念0.6 “非人文”是0.4

接下来就是P(tag1,tag2,tag3...|人文) 和 P(tag1,tag2,tag3...|非人文)了,也就是说,咱们要算出,在“人文”类里的全部数中,“计算机”,“科学”,“理论”,“经典”,“导论”这几个tag在“人文”数全部的tag的几率


1.准备训练集:

几乎全部的机器学习都须要训练集。贝叶斯分类也是同样的。上述,咱们说的已知的数据,就是训练集。上面的例子列举的10本书,以及者10本书所排重后的tag,就是咱们的训练集;而0.6 和 0.4 这两个几率就是P(tag1,tag2,tag3...|人文) 和 P(tag1,tag2,tag3...|非人文) 先验几率

基于咱们的问题,咱们须要准备100本书,人文分为“人文”和“非人文”两类,而且收集将这些书的全部tag。(能够爬去亚马逊或是豆瓣上的书籍资源)

2.造成tag集:

上述所说的tag,用python里的列表来保存,咱们令其位dicts.dicts里的每个元素是一个tag

dicts = [“科学”,“理论”,“c++”]这样的形式

3.计算训练集中的“人文”和“非人文”的几率

假设咱们训练集中的这100本书,有60本是“人文”,那么P(人文) = 60 / 100 = 60 P(非人文) = 1 - P(人文) = 0.4

4.计算tag集中每一个tag在训练集“人文”数据中tag出现的几率

首先,咱们基于训练集构造一个列表,这个列表里的每一项又是一个列表,这个列表里的每一项,不是1就是0。1表示这个字典中这个位置的tag是这个书的一个tag

dicts=["计算机","小说","心理","科学","编程","行为","导论","经典","游记","美国",.....]   tag集

tag_vector_人文 = [

    [0,1,0,0,0,0,0,1,0,1],            第一本书《麦田的守望者》tag:"小说""经典""美国"

    [0,0,1,0,0,1,0,0,0,1],            第二本书《可预测的非理性》tag:"心理","行为","美国"

    [],            第三本书

......


tag_vector_非人文= [

    [],

    [],

    ....

]

有了这样的数据后,咱们就好计算 P(tag1|人文)。对应tag1,咱们计算出训练集里“人文”的全部书中,tag1出现的次数。

例如,在训练集里,“人文”有60本,其中40本都由经典的tag,那么咱们就令num_of_tag1=40,依次类推

num_of_tag2=32,num_of_tag3=18...

而后,咱们求出在“人文”类,全部书的tag标签总数,例如“人文”类2本书,第一本书的标签是“散文”,“经典”,“外国”,第二本书是“经典”,“小说”,那么全部本tag总数是3+2=5。如今咱们求出训练集全部的100本tag的标签总数。假设总数是700.咱们令total_人文=700

因而tag1在“人文”类里的出现的几率就是P(tag1|人文) = num_of_tag1 / total_人文 = 40/700=0.057


利用numpy

from numpy import *
num_tags_cate1 = ones(len(dicts))              #1
total_cate1 = 2.0                              #2
for item in tag_vector_cate1:
    num_tags_cate1 += item                     #3
    total_cate1 += sum(item)                   #4

p_tags_cate1 = num_tags_cate1 / total_cate1    #5

#1 表示生成一个numpy数组,ones()是numpy的函数,返回一个填充了数值为1的numpy数组。参数是这个数组的长度。
例如temp=ones(3),表示生成一个numpy的数组[1,1,1]并返回给temp。因此就是以训练集的tag集dicts的长度为参数,生成一个和dicts等长的填充了1的numpy数组。

#2 
#3 tag_vector_cate1 是 [[],[],[]] 而item是每一个元素是一个列表,长度是dicts的长度,表示,对应的tag是否存在。
   numpy数组 + tag_vector_cate1的结果是,对应位置的元素相加
   a是一个numpy [1,2,3,5,0]  b是一个python的list [0,0,3,2,1]  a + b = [1,2,6,7,1] 结果是numpy的数组
#4 把每本书出现的全部tag数量相加,sum(item)也是numpy的函数,做用是讲item里面的每一项相加
   sum([2,5,-1]) = 2 + 5 - 1 = 6
   假如item是对应的list = [0,1,0,0,0,0,0,1,0,1]  对应是《麦田的守望者》  至关于总标签是3个
   
#5
相关文章
相关标签/搜索