频率派思想认为几率乃事情发生的频率,几率是一固定常量,是固定不变的函数
假设有100个水果由苹果和梨混在一块儿,具体分配比例未知,因而你去随机抽取10次,抽到苹果标记为1, 抽到梨标记为0,每次标记以后将抽到的水果放回atom
最终统计的结果以下:spa
苹果 8次,梨2次3d
据此,我能够推断出苹果的比例吗?xml
最大似然估计看待这个问题的思路是:对象
一、一、0、一、一、0、一、一、一、1blog
每次抽样都是独立的随机过程,抽到苹果的几率为 p, 抽到梨的几率为 1 - p,那么抽到8次苹果,2次梨的几率为:ci
$P_{x} = p^{8}(1 - p)^{2}$数学
为何我会抽到8次苹果、2次梨,为何不是7/3次或其余的组合形式,这背后确定有股神秘力量(上帝)在给我暗示:你这一次抽到的是8/2的组合,你下一次也极有可能仍是会抽到8/2组合,你每次都会以最高的几率抽到 8/2的组合,由于事实的真相就是8/2组合产品
有了这个思想,咱们能够求解, 当p = ? 时, 以8/2组合抽取,几率 $P_{x}$ 是最大的(极大似然)
$\begin{equation}
P_{x} = \mathop{\arg\max}_{p} \ \ p^{8}(1-p)^{2}
\end{equation}$
剩下的就是 取对数 -> 求导 -> 求0值, 获得
p = 80%
再来回顾一下解题的思路: 作实验以前,p 就是一固定的数值了(虽然具体值是什么咱们还不知道),经过实验,咱们获得了上帝的暗示,采用某种方式(最大似然估计),来找到这个p
贝叶斯派将几率解释成对事情发生的信心,是一个变量,有很大主观成分
先来看一下贝叶斯公式的定义:
$p(θ|x) = \frac{p(x|θ)p(θ)}{p(x)} = \frac{p(x|θ)p(θ)}{\sum^{k}_{i = 1}{p(x|θ_{i})p(θ_{i})}}$
只看前半部分:
$p(θ|x) = p(θ)\frac{p(x|θ)}{p(x)}$
贝叶斯的思想过程是这样的:
起初我并不知道θ的具体值是多少,同时θ仍是一变量, 它的取值服从某种几率分布,好比说抛硬币实验,假如我说投硬币正面几率为0.6(我的主观臆断,有出错的可能), 在说这句话的同时,其实还有隐台词: 投硬币获得正面的几率θ是一个飘忽不定的值,它最有可能取0.6,其次还可能为0.四、0.五、0.三、0.7.....,只是取其余值的可能性比较小,θ(正面的几率)的几率分布可能近似于一个高斯模型。
如今进行第一次投硬币,假如结果为正,从直觉上看,本次投到的结果为正,将会大大增长我对θ(投币结果为正)的信念,具体是怎么影响的呢?
首先来看$p(x|θ)$, 经过前面的讲解,咱们知道这是一个似然函数模型,意为: 我在用这套θ参数的状况下,将会以多大几率(likehood)取到当前这个样本
当θ = 1.0时, $p(x|θ) = θ^{1}(1 - θ)^{0} = 1$
当θ = 0.6时, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0.6$
当θ = 0.5时, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0.5$
当θ = 0.0时, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0$
再来看 $p(x)$,$p(x)$ 表明的是样本x发生的实际几率, 结合本例来说,这里$p(x = 1)$表明的是取到一次正面的几率,经过大量实验,能够算出 $p(x = 1) = 0.5$(地球人都知道,随机抛一个硬币,正面朝上的几率为0.5)
如今把他们的关系整理一下:
θ |
P(θ) |
p(x|θ) |
P(x) |
p(x|θ)/ P(x) |
P(θ)*p(x|θ)/ P(x) |
1 |
0 |
1 |
0.5 |
2 |
0 |
0.6 |
3.99 |
0.6 |
0.5 |
1.1 |
4.389 |
0.5 |
2.42 |
0.5 |
0.5 |
1 |
2.42 |
0 |
0 |
0 |
0.5 |
0 |
0 |
若是咱们将第四列用下面形式表示:
$\frac{p(x|θ)}{P(x)} = \frac{likely}{really} = \frac{本参数下的似然几率}{实际出现的几率} = 信心加强系数$
那么咱们能够将贝叶斯公式理解为:
$已知x前提下对θ的估计 = 对θ的初步估计 * 信心加强系数$
修正倍数 = 1时,表示本参数下的预测几率 = 实际出现的几率,对θ的初步估计比较适中,不须要调整
修正倍数 > 1时,表示本参数下的预测几率 > 实际出现的几率,大大加强了个人信心,对θ的肯定性我以为能够再大点
修正倍数 < 1时,表示本参数下的预测几率 < 实际出现的几率,对我是个沉重的打击,对θ的肯定性我也没那么多把握了
结合本实验:
假设 θ = 1,即抛硬币为正的几率为1(永远都获得正面), 可是假设毕竟是假设,我对此也很没把握,因此p(θ) = 0(或接近0的值),经过一次实验,观察到硬币果真是正,这个实验结果增长了我对θ = 1(正的几率为1)的信念,加强系数为2
假设 θ = 0.6,对此我有很大把握,因此p(θ) = 3.99,因而我用θ = 0.6这一套参数去作了一个似然估计,发现似然估计比真实的几率更好(更接近投一次硬币为正这个事实),因而乎,我更加坚信θ = 0.6,加强系数为1.1
假设 θ = 0,对此我又没多大把握,因此p(θ) = 0(或接近0的值),经过一次实验,观察到硬币是正,我以为θ = 0(投硬币为正几率为0)更不靠谱了,因而对我原来的把握度,我须要再下降一个档次,加强系数为0
如今我进行第二次试验,再次出现正面为上的结果
θ |
P(θ) |
p(x = 1,1|θ) |
P(x) |
p(x= 1,1|θ)/ P(x) |
P(θ)*p(x|θ)/ P(x) |
1 |
0 |
1 |
0.25 |
4 |
0 |
0.6 |
3.99 |
0.36 |
0.25 |
1.44 |
5.7456 |
0.5 |
2.42 |
0.25 |
0.25 |
1 |
2.42 |
0 |
0 |
0 |
0.25 |
0 |
0 |
能够看到,我对θ = 1的信心是愈来愈大了,对其余case的信心也有所调整
第三次实验,抛硬币获得反面为上的结果
θ |
P(θ) |
p(x = 1,1,0|θ) |
P(x) |
p(x= 1,1,0|θ)/ P(x) |
P(θ)*p(x|θ)/ P(x) |
1 |
0 |
0 |
0.125 |
0 |
0 |
0.6 |
3.99 |
0.144 |
0.125 |
1.152 |
4.59648 |
0.5 |
2.42 |
0.125 |
0.125 |
1 |
2.42 |
0 |
0 |
0 |
0.125 |
0 |
0 |
像这样咱们能够重复作100次实验,假设获得正的次数为51次,反的次数为49次
θ |
P(θ) |
p(x|θ) |
P(x) |
p(x|θ)/ P(x) |
P(θ)*p(x|θ)/ P(x) |
1 |
0 |
0 |
$0.5^{51}0.5^{49}$ |
0 |
0 |
0.6 |
3.99 |
$0.6^{51}0.4^{49}$ |
$0.5^{51}0.5^{49}$ |
0.195 |
0.777 |
0.5 |
2.42 |
$0.5^{51}0.5^{49}$ |
$0.5^{51}0.5^{49}$ |
1 |
2.42 |
0 |
0 |
0 |
$0.5^{51}0.5^{49}$ |
0 |
0 |
随着样本的增多,对$p(θ|x)$会愈来愈集中,且最终的结果与实验数据保持一致(θ = 0.5附近)
通过100次抛币实验后的后验几率分布图如上所示,最大几率大概在 θ = 0.53 的地方取得
如今来看一个问题:在咱们不断尝试调整θ的过程当中,列表其余项都会跟着改变,惟独p(x)那一列不会改变,这里须要用频率派的惟物主义观点来解释,结合本实验,p(x)表明取到当前实验数据的几率大小,这是客观事实,只能经过大量实验统计或者借用上帝视角把它算出来(没错,我就是做弊了)
既然p(x)是固定不变的值,那么咱们就能够获得下面结论:
$p(θ|x) ∝ p(θ)p(x|θ)$
这是理解最大后验估计(MAP)的关键
再来看贝叶斯思想的另一个例子:
一机器在良好状态生产合格产品概率是 90%,在故障状态生产合格产品概率是 30%,机器良好的几率是 75%。若一日第一件产品是合格品,那么此日机器良好的几率是多少?
根据韦恩图,咱们能够很方便的解决这个问题
由于题目已经说了,第一件产品是合格品,于是问题的范围天然就落入了标网格的矩形范围内
如今要求的是在标网格的矩形范围内,找出蓝色网格的比例(机器良好的几率),剩下的就是求矩形面积之比了
对应的公式模型就是
$p(θ|x) = \frac{p(x|θ)p(θ)}{\sum^{k}_{i = 1}{p(x|θ_{i})p(θ_{i})}}$
这个模型又该怎么理解呢?结合本实例:
p(x|θ)p(θ)做为一个总体来看,它在本例中表示的意思就是: 咱们如今关注于机器良好的状况,机器良好且生产良品几率为:
p(x|θ)p(θ) = 75% × 90% = 0.675
第一件产品是合格品,即 x = 合格
咱们分析这个合格的来源,它有可能来自良好机器(75%)生产的(90%),也有可能来自故障机器(25%)生产的(30%),那么
p(x) = 75% × 90% + 25% × 30% = 0,75
二者相除的结果:
p(θ|x) = 0.9
观察这个过程,能够看到分子表达式是分母的一部分,相除可解释为求比例,致使产品合格的缘由有多种,P(良好|合格)的意思是拿出来的是一件合格品,这件合格品是良好机器作出来的概率(良好机器生产合格品在整个合格品中的比例)。
$P(良好|合格) = \frac{P(良好)P(合格|良好)}{P(良好)P(合格|良好) + P(故障)P(合格|故障)}$
经过这种模型能够很轻易从另外一个角度解释后验几率p(θ|x),若是偏要借用模板一的方法来理解,过程是这样:
最开始,我以为机器良好的几率是75%,机器状态的几率分布以下所示:
在相应状态,生产良品的几率(似然)以下:
注意这里的 θ = 机器状态,θ可能的取值只有故障、良好两种状态。如今我作了一个实验,发现是良品,因而我对机器是良好的信息将会有所调整:
$p(θ|x) = p(initial)\frac{p(likely)}{p(really)} = 75\%\frac{75\% × 90\%}{75\% × 90\% + 25\% × 30\%} = 0.9$
注意抛硬币实验中的 θ = 抛硬币为正的几率,是一个连续变量
机器生产实验的 θ = 机器状态,要么是良好,要么是故障,是一个离散变量
有了前面对贝叶斯思想的描述,咱们能够很容易理解最大后验估计(MAP)
θ是一个连续或离散的变量
p(θ|x)表示我取到了一个数值为x的样本
取$θ = θ_{1}$时,我将会以$p(x|θ_{1})$取到该样本,以这种方式取到样本x的几率占全部可能性p(x)的比例为$p(θ_{1}|x)$
取$θ = θ_{2}$时,我将会以$p(x|θ_{2})$取到该样本,以这种方式取到样本x的几率占全部可能性p(x)的比例为$p(θ_{2}|x)$
......................
因而我就想,这个θ究竟是多少呢?我知道θ是随时在变的,我不可能捕捉到它的确切数值,但我能够猜出它最有可能的值,理由是:
我拿到了一组样本x,我以为这确定不是一种偶然,我以这种方式拿到样本x的几率必定是全部可能性p(x)中最大的,用数学符号简化一下就是:$p(x|θ)p(θ)$是$p(x)$中最大的,即$p(θ|x)$最大,反过来讲,我知道了$p(θ|x)$的最大值,我就知道了θ最可能的取值,以这种思路求θ的过程就称为最大后验估计(MAP)
$\mathop{\arg\max}_{θ} p(θ|x) = \mathop{\arg\max}_{θ} \frac{p(x|θ)p(θ)}{p(x)} = \mathop{\arg\max}_{θ} p(x|θ)p(θ)$
其中: $p(θ|x) ∝ p(θ)p(x|θ)$
能够看出,最大后验估计与最大似然估计的思想方法仍是存在很大的类似性的,不一样的是:
最大似然估计是根据数据直接直接对θ进行估计
最大后验估计是在对θ进行估计以前,强加了一个可能性因素p(θ)
至于样本x的几率p(x),这是个一个客观存在(只有上帝知道,或作实验取逼近)的东西,有它没它对估计值没有影响
实际上,p(θ) = const是,最大似然与最大后验估计的结果就是一致的,缘由是,我不知道 θ 的值为多少,我也不妄加揣测,我认为它的可能性都是相同的,这样,我估计和没估计其实没什么差异(就比如某经济学家说明天股市可能大涨,也存在下跌的空间,那说了等于没说嘛)。
另外,p(θ)带有极强的主观臆断,既然是主观的,那就有可能犯错,若是我犯错了怎么办呢,解决办法就是大量实验,好比刚才的投币实验,虽然我先前对p(θ) = 0.6的估计是一个错误值,可是经过大量实验,会对个人估计值进行修正,最终与最大似然估计值接近
若是有一个执拗的贝叶斯几率论者坚持认为
$f(x)=
\begin{cases}
0,&\quad \text{θ =1}\\
1,&\quad \text{θ != 1}
\end{cases}$
那无论怎么作实验都没招了~
关于贝叶斯思想与最大后验估计,我讲的就这么多,在理解贝叶斯的过程当中,我不少次掉进了惯性思惟的坑,经过不断思考对比,有些我已经找到问题的答案,有些尚未,如今拿出来给你们分享,有不少只是个人我的看法,不必定正确,但愿你们纠正。
第一个问题,网上有不少都用下面模型来描述贝叶斯思想:
$p(癌症|阳性) = \frac{p(癌症)p(阳性|癌症)}{p(癌症)p(阳性|癌症) + p(非癌症)p(阳性|非癌症)}$
直接上,咱们以为检查出阳性的人基本上就完蛋了,可是经过贝叶斯分析,知道事实并非这样的,同时咱们还知道了其中的缘由:
这里,我有一个疑惑,讲述最大后验估计时,咱们说分母 p(x)对估计的结果不会形成影响,可是这里的分母确确实实影响了咱们的判断,何解?
我以为这个疑问的产生主要是混淆了贝叶斯公式与最大后验的研究对象。
贝叶斯公式说:我给你一组实验数据x(阳性), 你给我找出条件下θ(癌症)的几率p(θ|x)
最大后验估计说:我给你一组实验数据x(阳性),你给我猜一猜θ究竟是得癌症仍是未得癌症的概率大,即取p(θ|x)最大者
贝叶斯公式研究的对象是p(θ|x),这个是跟分母有关的
最大后验估计研究的对象是θ,这个跟分母是没有关系的
为何检查出阳性,人们总会得出得癌症的错觉呢?
我以为这是一个比较有意思的心理问题,惯性思惟的思考过程是这样的:得癌症通常都是能检查出阳性的,那反过来,检查出阳性那就是的癌症了
思惟上的局限性限制了咱们对问题的判断,实际上生活中咱们会常常犯这样的错误
孩子考试很差,咱们是否是会常常责怪孩子不努力,而不反思是否是本身没有好的引导,老师没有教好,或者这个东西根本不是小孩的兴趣方向
女友吵架了,咱们是否是常常会以为她脾气很差,而不想是否是本身对她不关心,或者最近压力太大了?
。。。。。。。。
第二个问题,机器生产实验中,题目说p(良好) = 75%,按照贝叶斯公式的理解,这里不该该是一个带有主观臆断的先验几率吗?怎么是一固定值了?并且分母不是作实验作出来的吗?这里怎么直接算出来了?
其实,这里说机器良好的几率为75%(p(θ) = 75%),就是借用了上帝视角的说法,分母也是做弊算出来的(对比抛硬币实验,若是我一开始就开启上帝视角,那么正面朝上的几率分布p(θ)将是以0.5为中心,无穷大的脉冲,这样,作不作实验,都不会影响我对θ取值的信心了)。
第三个问题,抛硬币模型与机器生产几率模型的对比:
机器良好/故障 —— 硬币正/反
抽检结果获得合格 —— 随机抛出,获得正面
按照这种对应方式,他们应该是处于同一个模型的问题,为何一个是离散问题,一个是连续问题?
如今假如使用离散模型来分析抛硬币实验:
分析在不一样朝向下的似然几率:
二者相乘,会是一种什么结果?
若是这都还能接受,那么我再增长一次实验, 样本 x = 正面、正面、反面,这样在给定 x 的前提下, 不论θ = 正,仍是θ = 反, 似然几率 p(x|θ) 都只能为0了(假设硬币是正,是不可能获得x = 反的样本的),究竟是哪里搞错了?
贝叶斯思想是一种思惟模式——由结果找缘由,咱们画后验几率p(θ|x)的分布图时,横轴始终是缘由θ,纵轴始终是因果关系的比重,问题是,你选的缘由是对的吗?或者你选择的缘由会致使这种结果吗?
好比刚才的硬币实验,个人缘由 = 硬币为正,会致使 x = 正、正、反的结果吗?
明白了这个问题,咱们再讨论一下如何选择正确的结果~
结合抛硬币的实验: 咱们获得了一个样本 x = 正,为何会产生这个数据,由于抛硬币有时候会获得正面,有时候会出现反面,”有时候”这个词对应的就是几率
第四个问题,咱们描述抛硬币实验的问题时,可算到先验几率p(θ) = 3.99这样的数据,起初我还纳闷,几率不是一个0~1之间的小数吗,正面会有3.99这样的几率。
这又是惯性思惟的一个反例,几率这东西实际上是做用于离散变量上的一个名词,当θ为连续变量时,实际上是不该该用 θ = 0.6 的几率这个说法来称呼的,翻几率论的书籍咱们知道,连续随机变量在某一点处的几率实际上是0的, p(θ) = 3.99更确切的解释应该是θ = 0.6处的几率密度为3.99。
因此下面才是连续变量形式的贝叶斯公式模型的正确形式:
$π(θ|x) = \frac{p(x|θ)π(θ)}{\int{p(x|θ)π(θ)d(θ)}}$
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
路漫漫其修远兮,吾将上下而求索