数据来自于一个不彻底清楚的过程。以投掷硬币为例,严格意义上讲,咱们没法预测任意一次投硬币的结果是正面仍是反面,只能谈论正面或反面出现的几率。在投掷过程当中有大量会影响结果的不可观测的变量,好比投掷的姿式、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量其实是能够观测的,但咱们对这些变量对结果的影响缺少必要的认知,因此退而求其次,把投掷硬币做为一个随机过程来建模,并用几率理论对其进行分析。微信
几率有时也被解释为频率或可信度,可是在平常生活中,人们讨论的几率常常包含着主观的因素,并不老是能等同于频率或可信度。好比有人分析中国足球队打进下次世界杯的几率是10%,并非说出现的频率是10%,由于下次比赛尚未开始。咱们其实是说这个结果出现的可能性,因为是主观的,所以不一样的人将给出不一样的几率。函数
在数学上,几率研究的是随机现象背后的客观规律。咱们对随机没有兴趣,感兴趣的是经过大量随机试验总结出的数学模型。当某个试验能够在彻底相同的条件下不断重复时,对于任意事件E(试验的可能结果的集合,事件是集合,不是动做),结果在出如今E中的次数占比趋近于某个常量,这个常数极限是事件E的几率,用P(E)表示。学习
咱们须要对现实世界建模,将现实世界的动做映射为函数,动做结果映射为数。好比把投硬币看做f(z),z是影响结果的一系列不可观测的变量,x 表示投硬币的结果,x = f(z)。f是一个肯定的函数,若是可以获得该函数的形态,咱们就能对结果进行精确预测,但因为咱们对x和z之间的映射关系缺乏了解,因此没法对f建模,只能定义X来描述该过程是由几率分布P(X=x)抽取的随机变量。spa
在讨论贝叶斯决策以前先来复习一下几率的基础知识。3d
随机变量一般用实数表示几率事件,它具备随机性,会随环境而改变,对于随机变量的每个取值,都有一个与之惟一对应的几率。一般用大X表示随机变量,好比X={投掷硬币的结果},X={公司第一季度的销售额}。orm
离散型变量的几率分布能够用几率质量函数(probability mass function,PMF)来描述。一般用大写的P来表示几率质量函数。几率质量函数把随机变量可以取得的每一个值都映射到该值对应的几率,好比P(X=x)表示随机变量等于x的几率,这里X表示随机变量自己,x表示某一个固定的取值。blog
离散型随机变量是的取值是有限的,好比投骰子的结果,X=每次投骰子的结果。每一个随机变量都有一个与之对应的几率,好比投骰子时P(X=1)=1/6,P(X=3)=1/6;再好比P(X=1)=1/4,1表示“今年会发年终奖”。事件
对于任意实数a,离散型随机变量X的几率分布函数是:ci
其中P是几率质量函数,P(a) = P(X=a),能够简单地把几率分布理解为几率的累加。数学
随机变量可能不止一个,好比{X=汽车发动机功率,Y=汽车价格}。咱们对多个随机变量以及它们之间的关系一样感兴趣,它们的联合分布是:
假设有两个离散型随机变量X和Y,而且已知P(X,Y),能够用下式定义X=x的边缘几率:
连续型随机变量的取值是连续的,好比水杯中水的真实体积,它的值多是从0~1000ml中的任意取值(包括小数)。咱们用几率密度函数(probability density function,PDF)而不是质量函数来描述它的几率分布。一般用小写字母p表示几率密度函数,p的定义域是全部随机变量的可能的取值,一个常见的密度函数是正态分布函数。
对于单变量连续型几率分布来讲:
p和表示几率的质量函数P不一样,p不是几率,p(x)dx才是几率。
对于二维随机变量来讲,p(x,y)是密度函数,联合几率分布是:
边缘密度天然是固定一个变量,对另外一个作积分:
实际上这与离散型相似,只不过用积分代替了求和。边缘密度也不是几率,px(a)dx才是几率。
随机变量X的指望是指大量试验中X的加权平均值,用E[X]表示:
若是随机试验仅有两个可能的结果,那么这两个结果能够用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和1,而无论观测条件是什么。
设p是随机变量等于1的几率,伯努利分布有一些特殊的性质:
将上面的两个式子合并:
伯努利变量是离散型,而且是一个0/1变量,它的数学指望是:
方差是:
不少时候,咱们感兴趣的是某个事件在给定其它事件时出现的几率,这种几率称为条件几率。给定X=x,Y=y,在x条件下下发生y的几率是P(y|x):
这其实是由下式推导来的:
x和y同时发生的几率等于x条件下发生y的几率(这里x和y都是给定的值,x条件下还能够发生其余事件)乘以x发生的几率。这里并未强调X和Y是独立的,因此P(x|y)≠P(y|x),只有当两者互相独立时,P(y|x)=p(xy)=P(x|y)。
贝叶斯公式常见的一个版本:
不少时候,求P(A|B)很困难,但求P(B|A)却很容易。上面的公式其实是条件几率公式简单的推导:
当两个变量联合分布时:
分母其实是随机变量Y=B时的边缘几率:
人们一直经过寻找证据的方式来排除陌生领域的不肯定性,并在不肯定的条件下进行决策,而几率正是根据有意义的证据进行推理的一种方式。
假设咱们有一个关于小汽车的样本集,其中包含m个样本,每一个样本都有发动机功率和价格两个特征,这些汽车可分为两类,跑车和普通家用车。在这个集合中,汽车的类型能够用伯努利随机变量C表示,C=1表示家用车,C=0表示豪华车。发动机功率和价格做为可观测的条件,是一个二维随机变量,X=(x1; x2)。若是咱们可以知道质量函数,当面对一组观测条件的向量x=(x1; x2)时,就能够作出相似下面的预判:
在x条件下,当汽车是家用车的几率大于50%时,判断该汽车是家用车,不然判断为豪华车。
如今的问题是如何求得P(C|x)的分布模型。根据贝叶斯规则:
P(C|x)是后验几率,意思是根据观测条件判断C取值类型的几率,是咱们的目标。
P(C)是预先知道的,它是根据数据集中m个样本的标签统计而来的,与x无关。这里“无关”的意思是说,咱们只经过标签就能够计算出P(C),而不是说特征真的和标签无关——要是真的无关也就不必创建模型了。因为咱们在看到x前就已经知道了P(C),所以称P(C)为先验几率,而且有P(C = 0) + P(C = 1) = 1。
P(x|C)是似然,P(x|C=1)表示在家用车的前提下,发动机功率和价格有多大可能性是x。P(x|C)也能够经过训练数据获得(具体方法将在后续文章详细讲述)。值得注意的是,在实际应用中,x一般是更多维的,且每一维度都有不少取值,所以随机变量的取值空间远远大于训练集的样本数,这就致使观测条件的许多取值没有出如今训练样本中,而“没有出现”和“出现的几率是0”并非一回事,这意味着P(x|C)实际上也没法经过已知的数据求得(变通方法将在后续文章详细讲述)。
P(x)是证据,是可观测条件X=x的边缘几率:
能够看到,P(x)实际上就是x出如今数据集中的几率,与C有多少个取值无关。证据的一个做用是使后验几率规范化,使得:
也许代入具体的公式会更清晰:
贝叶斯规则告诉咱们:
只要知道了后验几率,就能够根据观测条件作出决策。
以手写数字识别为例,随机变量X是手写输入的图像,Ci(i=1,2,…,10)表示被识别出数字的分类,C1~C9表示1~9,C10表示数字0,共10个分类,K = 10。数据集中已经有了大量的图像和对应的分类:
对于先验几率P(Ci)来讲:
假设先验和似然是已知的,对于任意一个输入x,被识别为Ci类的几率是:
对于每一个输入,都能获得K=10个后验几率。如今有一个潦草的输入:
暂且认为是地球文字,而且中第一个字符的真实含义是7,对于该字符的识别将产生10个后验几率:
其中最大的一个值是P(C2|x),所以选择C2做为最终决策:
在这个例子中,因为字迹潦草,识别系统对x作出了错误的决策。对于医疗诊断来讲,决策是相当重要的,也许把每7天检查一次当作2天检查一次没什么大不了,可是反过来就可能耽误患者的治疗,这意味着每一个决策对应的风险是不一样的。
为了判断风险的大小,须要将其数字化。咱们定义R(Ci|x)是把输入x指派到Ci类的决策所带来的风险。λik是x实际上属于Ck时把x指派到Ci的损失,好比本例中字符的真实含义是7(x属于C7),但识别系统将x指派到了C2,此时的损失是λ27。结合指望的概念,指望风险(expected risk)R(Ci|x)是:
指望风险的另外一个名称是指望损失(expected loss),在决策论中一般用“指望风险”一词。λik是根据领域知识定义的,抢银行失败的风险和考试失败的风险固然不一样。
咱们选择指望风险最小的决策做为最终决策:
正确的决策没有损失,即λii=0,但错误的损失各不相同,把2天服药一次看做3天服药一次也许损失不大,可是看做7天服药一次可就要命了。
一种最简单的损失函数是0-1损失函数:
在0-1损失函数下,结合①,把输入x指派到Ci的决策带来的指望风险是:
“正确的决策没有损失”这句话并不彻底正确,由于存在例外,好比在“老妈和女友同时掉进水中先救谁”这种送命题中,不管怎么选会有损失,此时你可让“最佳决策”有一个相对较小的损失。鉴于送命题的答案是一个玄学问题,咱们姑且认为在绝大多数状况下,正确的决策没有损失。
P(C2|x)=0.54是全部P(Ci|x)中最大的一个,表示x有比一半多一点的几率是C2,近似于瞎蒙,这意味着这是一个肯定性很低(或错误率很高)的决策。在医疗诊断中,错误的决策每每意味着极高的代价,所以对这些肯定性很低的决策可能须要更高级别的处理,好比人工干预。这就须要定义一个拒绝(reject)或疑惑(doubt)动做d,此时带有疑惑动做的0-1损失函数是:
λ是疑惑动做的损失(注意λ和λik不是一回事)。疑惑的风险是:
值得注意的是,咱们处理的仍然是K分类,疑惑动做和其余的普通决策虽然站在一块儿,但并不等价。之因此定义d,是因为对全部P(Ci|x),1 ≤ i ≤ K来讲,即便最大的一个P(Ci|x)仍然可能只有很低的置信度,①仍然成立,把x划分到Ci的风险仍然是②。
对于带有疑惑的决策来讲:
把②和③代入的第一个分式:
λ的取值应该在(0, 1)之间,若是λ ≤ 0,那么对于第一个分式来讲,P(Ci|x) > 1 – λ 永远不会成立,这意味着识别系统老是对输入产生疑惑;若是λ ≥ 1,则永远不会拒绝,加入疑惑动做就没有意义了。
出处:微信公众号 "我是8位的"
本文以学习、研究和分享为主,如需转载,请联系本人,标明做者和出处,非商业用途!
扫描二维码关注做者公众号“我是8位的”