一、准备:算法
(1)先验几率:根据以往经验和分析获得的几率,也就是一般的几率,在全几率公式中表现是“由因求果”的果机器学习
(2)后验几率:指在获得“结果”的信息后从新修正的几率,一般为条件几率(但条件几率不全是后验几率),在贝叶斯公式中表现为“执果求因”的因函数
例如:加工一批零件,甲加工60%,乙加工40%,甲有0.1的几率加工出次品,乙有0.15的几率加工出次品,求一个零件是否是次品的几率即为先验几率,已经得知一个零件是次品,求此零件是甲或乙加工的几率是后验几率学习
(3)全几率公式:设E为随机试验,B1,B2,....Bn为E的互不相容的随机事件,且P(Bi)>0(i=1,2....n), B1 U B2 U....U Bn = S,若A是E的事件,则有spa
P(A) = P(B1)P(A|B1)+P(B2)P(A|B2)+.....+P(Bn)P(A|Bn)3d
(4)贝叶斯公式:设E为随机试验,B1,B2,....Bn为E的互不相容的随机事件,且P(Bi)>0(i=1,2....n), B1 U B2 U....U Bn = S,E的事件A知足P(A)>0,则有blog
P(Bi|A) = P(Bi)P(A|Bi)/(P(B1)P(A|B1)+P(B2)P(A|B2)+.....+P(Bn)P(A|Bn))事件
(5)条件几率公式:P(A|B) = P(AB)/P(B)方法
(6)极大似然估计:极大似然估计在机器学习中想当于经验风险最小化,(离散分布)通常流程:肯定似然函数(样本的联合几率分布),这个函数是关于所要估计的参数的函数,而后对其取对数,而后求导,在令导数等于0的状况下,求得参数的值,此值即是参数的极大似然估计im
注:经验风险:在度量一个模型的好坏,引入了损失函数,常见的损失函数有:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等,同时风险函数(指望风险)是对损失函数的指望,指望风险是关于联合分布的理论指望,可是理论的联合分布是没法求得的,只能利用样原本估计指望,所以引入经验风险,经验风险就是样本的平均损失,根据大数定理在样本趋于无穷大的时候,这个时候经验风险会无限趋近与指望风险
二、朴素贝叶斯算法
(1)思路:朴素贝叶斯算法的朴素在于对与特征之间看做相互独立的意思例如:输入向量(X1, X2,....,Xn)的各个元素是相互独立的,所以计算几率P(X1=x1,X2=x2,....Xn=xn)=P(X1=x1)P(X2=x2)......P(Xn=xn),其次基于贝叶斯定理,对于给定的训练数据集,首先基于特征条件独立假设学习联合几率分布,而后基于此模型,对于给定的输入向量,利用贝叶斯公式求出后验几率最大的输出分类标签
(2)详细:以判断输入向量x的类别的计算过程来具体说下朴素贝叶斯计算过程
<1>要计算输入向量x的类别,便是求在x的条件下的y的几率,当y取某值最大几率,则此值便为x的分类,则几率为P(Y=ck|X=x)
<2>利用条件几率公式推导贝叶斯公式(此步非必要,本人在记贝叶斯公式时习惯这么记)
由条件几率公式得P(Y=ck|X=x) = P(Y=ck,X=x)/P(X=x) = P(X=x | Y=ck)P(Y=ck)/P(X=x)
由全几率公式可得(替换P(X=x)):
<3>因为朴素贝叶斯的“朴素”,特征向量之间是相互独立的,所以可得以下公式:
<4>将<3>中的公式带入<2>中的贝叶斯公式可得:
<5>看上式的分母,对于给定的输入向量X,以及Y的全部取值,所有都用了,详细的讲即为不管是计算在向量x条件下的任意一个Y值 ck,k=1,2....K,向量和c1.....ck都用到了,所以影响P(Y=ck|X=x)大小只有分子起做用,所以可得
注:argmax指的是取几率最大的ck
<6>其实到<5>朴素贝叶斯的整个过程已经完毕,可是其中的P(Y=ck)和P(X(j)=x(j)|Y=ck)的求解方法并无说,两者得求解是根据极大似 然估计法来得其几率,即得以下公式:
其中的I(..)是指示函数,固然这些几率在实际中能够很块求得,能够看以下得一个题,看完以后就知道这两个几率是怎么求了,公式推导 过程不赘述(具体过程我也不太清楚,不过看做相似二项分布得极大似然求值)
三、题-----一看就把上边得串起来了(直接贴图)