浅议极大似然估计(MLE)背后的思想原理

1. 几率思想与概括思想

0x1:概括推理思想

所谓概括推理思想,便是由某类事物的部分对象具备某些特征,推出该类事物的所有对象都具备这些特征的推理。抽象地来讲,由个别事实归纳出通常结论的推理称为概括推理(简称概括),它是推理的一种html

例如:直角三角形内角和是180度;锐角三角形内角和是180度;钝角三角形内角和是180度;直角三角形,锐角三角形和钝角三角形是所有的三角形;因此,一切三角形内角和都是180度。
这个例子从直角三角形,锐角三角形和钝角三角形内角和分别都是180度这些个别性知识,推出了"一切三角形内角和都是180度"这样的通常性结论,就属于概括推理。

1. 概括推理的分类

传统上,根据前提所考察对象范围的不一样,把概括推理分为面试

1. 彻底概括推理:考察某类事物的所有对象
2. 不彻底概括推理:仅考虑某类事物的部分对象,并进一步根据:所依据的前提是否揭示对象与其属性间的因果联系,把不彻底概括推理分为
  1)简单枚举概括推理:在经验观察基础上所作出的归纳
  2)科学概括推理:在科学实验基础上所作出的归纳

这里的所谓的“对象与其属性间的因果联系”即概括推理强度,概括推理的强度彼此间差别很大,根据概括强度可分为算法

1. 演绎推理:必然性推理
2. 概括推理:或然性推理

而现代概括推理的主要形式有机器学习

1. 枚举论证
2. 类别
3. 比喻论证
4. 统计论证
5. 因果论证

2. 概括推理的必要条件

概括推理的前提是其结论的必要条件,可是概括推理的前提必须是真实的,不然概括就失去了意义wordpress

3. 概括推理的结论 - 即样本

概括推理里的结论指的是观测到了已经发生的事物结果,具体到机器学习领域就是咱们常说的样本。须要特别注意的是,前提是真不能保证结论也必定是真,有时候概括推理的结论多是假的,或者不彻底是真的。如根据某天有一只兔子撞到树上死了,推出天天都会有兔子撞到树上死掉,这一结论极可能为假,除非一些很特殊的状况发生函数

0x2:枚举推理 - 不彻底推理的一种

在平常思惟中,人们常根据对一类事物的部分对象具备某种属性的考虑,推出这一类事物的所有对象或部分对象也具备该属性的结论,这种推理就是枚举推理,即从特殊到通常的推理过程工具

例如:数目有年轮,从它的年轮知道树木生长的年数;动物也有年轮,从乌龟甲上的环数能够知道它的年龄,牛马的年轮在牙齿上,人的年轮在脑中。从这些事物推理出全部生物都有记录本身寿命长短的年轮。post

咱们称被考察的那部分对象为样本(S),样本中某一个对象为样本个体(s),称这一类事物的所有对象为整体(A),样本属性(P),整体所具备的属性称为描述属性性能

枚举推理是从所考察的样本属性归纳出整体属性的推理,其推理形式以下:学习

A 的 S 都具备 P 属性 => 全部 A 都具备 P 属性

枚举推理是典型的概括推理,由于它体现了概括归纳这个概念的实质。从哲学的认识论意义上说,演绎体现了由通常到个别的认识过程,概括体现了由个别到通常的认识过程,两者是互相联系、互相补充的

若是一个整体中的全部个体在某一方面都具备相同的属性,那么任意一个个体在这方面的属性都是整体的属性(广泛寓于特殊中)

例如医生为病人验血只需抽取病人血液的一小部分。母亲给婴儿喂奶只要尝一小口就能知道奶的温度,不一样的个体在某方面所具备的无差异的属性称为同质性,有差异的属性称为异质性。比较而言,在科学概括中,样本属性与描述属性具备同质性的几率较高,而在简单枚举法中,样本属性与描述属性具备同质性的几率较低

1. 全称枚举推理的批判性准则

1. 没有发现与观测结论相关的反例:只要有与结论相关的反例,不管有多少正面支持结论的实例,结论都是不真实的
2. 样本容量越大,结论的可靠型就越大:基于过少的样本所做出的归纳是容易犯错误的,咱们须要足够大的样本容量,也就是样本内所含个体的数量,才能确立咱们对所做出的归纳的信心
3. 样本的个体之间的差别越大,结论的可靠性就越大:样本个体之间的差别一般能反映样本个体在整体中的分布状况,样本个体之间的差别越大说明样本个体在整体中的分布越广。这条准则涉及样本的表明性问题
4. 样本属性与描述属性有同质性的几率越大,结论的可靠性越大:从逻辑上说,样本属性与结论所归纳归纳的整体属性应当具备同质性,不然就必定会有反例。对于机器学习来讲,就是咱们取的样本必定要是最终实际线上模型的获取方式、特征抽取提取方式等方面必定要保持一致,这样才能保证同质性

2. 特称枚举与单称枚举

在一类事物中,根据所观察的样本个体具备某种属性的前提,得出整体中的其余一些个体也具备这种属性的结论,这种推理就是特称枚举推理,例如

1. 在亚洲观察到的天鹅是白色的,在欧洲和非洲观察到的天鹅也是白色的。因此美洲的天鹅也是白的:特称枚举是从样本到样本的推理
2. 在亚洲观察到的天鹅是白色的,在欧洲和非洲观察到的天鹅也是白色的,因此隔壁小李叔叔救回来的那只受伤的天鹅也会是白的:单称推理是从已考察的样本S到未知个体

须要注意的是,上面提到的4个全称枚举的准则都一样应用于特征枚举与单称枚举,可是存在几个问题

1. 因为单称枚举和特称枚举的结论是对未知个体作出的判定,结论超出了前提的判定范围,其结论面临着更大的反例的可能性,例如小李叔叔救回来的天鹅不是白色的,或者根本就不是天鹅
2. 在平常思惟实际中,单称枚举和特称枚举所推断的状况每每在将来才会出现。于是也称之为预测推理,其中单称枚举推理是最经常使用的形式,例如:从过去太阳老是从东方升起,推断出明天太阳也将从东方升起

0x3:彻底概括法 - 枚举推理的极限

若是前提所包含的样本个体穷尽了整体中的全部个体 ,则其结论具备必然的性质。彻底概括法的特色是前提所考察的一类对象的所有,结论判定的范围没有超出前提的判定范围,本质上属于演绎推理

0x4:几率思想和概括思想的联系

几率思想与概括思想之间存在密切联系。概括法中的几率概括推理是从概括法向几率法发展的标志。几率概括推理是根据一类事件出现的几率,推出该类全部事件出现的几率的不彻底概括推理,是由部分到全体的推理,其特色是对可能性的大小做数量方面的估计,它的结论超出了前提所判定的范围,于是是或然的。

从某种程度上来讲,概括是一种特殊的几率,几率方法是概括方法的天然推广,几率是概括法发展到必定程度的必然产物

1. 几率法
  1) 几率法自己是对大量随机事件和随机现象所进行的一种概括,是对随机事件发生的结果的概括,它并不关心事件发生的具体过程
  2)而几率方法则主要适用于多变量因果关系的复琐事件所决定的问题

2. 概括法
  1)概括法不只关注事件发生的结果,它还关注事件发生的具体过程,它认可事件发生过程当中的规律性,并以此为基础来研究事件发生过程当中的规律性
  2)概括法主要适用于少变量因果关系的简单事件所决定的问题

0x5:统计思想(数理统计)与特殊化思想的联系

特殊化思想是将研究对象或问题从通常状态转化为特殊状态进行考察和研究的一种思想方法。特殊化思想方法的哲学基础是矛盾的广泛性寓于特殊性之中。

而数理统计思想方法是经过对样本的研究来把握整体内在规律的一种研究方法,换句话说,统计是经过对特殊事物的认识来把握通常规律,所以它也是一种特殊思想方法

特殊化方法主要处理肯定性问题,更侧重过程和对具体方法的把握;而统计法则主要研究随机对象,它更强调对结果和总体的把握。

数量统计思想并不局限在具体的方法层次,它主要是从思想层面来把握问题,是一种真正意义上的特殊化方法

Relevant Link: 

http://www.doc88.com/p-2985317492201.html
https://max.book118.com/html/2014/0104/5473598.shtm
http://www.docin.com/p-355028594.html
https://baike.baidu.com/item/概括推理思想/8335575?fr=aladdin
http://www.360doc.com/content/12/0312/15/7266134_193751535.shtml 

 

2. 几率论和统计学的关系

来自于微博的一张图:

1. 几率论是统计推断的基础,在给定数据生成过程下观测、研究数据生成的性质;
2. 而统计推断则根据观测的数据,反向思考其数据生成过程。预测、分类、聚类、估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究。

例如:在医院会对过去有糖尿病的全部病人进行概括总结(创建模型,即统计概括);当有一个新的病人入院时,就能够用以前的概括总结来判断该病人是否患糖尿病,而后就能够对症下药了。统计里常说的“分类”就是这个过程(即根据已知条件进行预测将来)。

统计=样本(回顾过去的数据)概括出整体(总结)
几率率=整体(给定条件)对样本进行预测

统计和几率是方法论上的区别,几率是演绎(分析),统计是概括(总结)

1. 几率论研究的是一个白箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的联合几率分布函数),而后计算下一个摸出来的球是红球的几率(求具体条件几率)
2. 而统计学面对的是一个黑箱子,你只看获得每次摸出来的是红球仍是白球,而后须要猜想这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验)
几率 =>  <= 统计概括:几率值统计的理论依据,在样本量足够且分布范围足够广的时候,它们之间能够互相推导
而几率论中的许多定理与结论,如大数定理、中心极限定理等保证了统计推断的合理性。即从理论上证实支撑了为何咱们经过统计概括能够得到对总体几率分布上的状况。为了理解这个概念,咱们先来讨论下相关的数学定理

0x1:统计概括合理性的理论基石 - 几率正态分布定理和几率指望定理

1. 小数定理

小数定律是说,若是统计数据不多,那么事件就表现为各类极端状况,而这些状况都是偶然事件,跟它的指望值一点关系都没有

若是统计数据不够大,就什么也说明不了

小数定律里的“跟它的指望值一点关系都没有”,这里的指望值就是接下来要讨论的“大数定律”。

2. 大数定理 - 随机变量的平均结果问题

大数定律是咱们从统计数字中推测(概括)真相的理论基础。

大数定律说若是统计数据足够大,那么事物出现的频率(统计)就能无限接近他的指望值(几率)

所谓指望,在咱们的生活中,指望是你但愿一件事情预期达到什么样的效果。例如,你去面试,指望的薪水是1万5。

在统计几率里,指望也是同样的含义,表示的也是事件将来的预期值,只不过是用更科学的方式来计算出这个数值。某个事件的指望值,也就是收益,其实是全部不一样结果的和,其中每一个结果都是由各自的几率和收益相乘而来。

假设你参与了一个掷骰子的游戏,游戏规则是掷出1点能够得到1元,掷出2点能够得到2元,掷出3点能够得到3元,以此类推。那么在这个游戏中,掷一次骰子的指望值是多少?即掷一次骰子全部全部可能的结果来讲,能得到的预期收益是多少?
1/6*1元+1/6*2元+1/6*3美圆)+1/6*4元+1/6*5元+1/6*6元
=3.5元

这个指望3.5元表明什么意思呢?

可能你某一次抛筛子赢了1元,某一次抛筛子赢了6元,可是长期来看(假设玩了无数盘),你平均下来每次的收益会是3.5元。

咱们能够看出来: 指望的本质是几率的平均值。
上图是掷骰子游戏的动态演示过程,横轴表示抛筛子次数,纵轴表示指望值
1. 咱们发现当抛筛子次数少数,指望波动很大。这就是小数定律,若是统计数据不多,那么事件就表现为各类极端状况,而这些状况都是偶然事件,跟它的指望值一点关系都没有。
2. 可是当你抛筛子次数大于60次后,就会愈来愈接近它的指望值3.5
大数定律的核心思想即: 若是统计数据足够大,那么事物出现的统计指望(基于频率)就能无限接近他的理论指望。

3. 几率中的收敛定理 - 随机变量的几率分布问题

按分布收敛 - 中心极限定理

在必定条件下,大量独立随机变量的平均数是以正态分布为极限的。根据中心极限定理,咱们经过大量独立随机变量的统计概括,能够获得几率分布密度函数的近似值

列维-林德伯格定理 

是中心极限定理的一种,就是独立同分布的中心极限定理

棣莫弗—拉普拉斯定理

证实的是二项分布的极限分布是正态分布,也告诉了咱们实际问题时能够用大样本近似处理。

0x2:为何在大量实验中随机变量的统计结果能够概括推理出几率密度函数?

有了上一小节讨论的 大数定理和几率收敛定理,咱们其实是知道几率密度函数平均指望和大体分布的,对于高斯分布来讲(不必定就是高斯分布),就是 均值方差这两个关键指标。同时咱们知道,根据均值和方差,咱们能够大体描绘出一个对应几率密度函数的分布状况和值状况了,也即咱们能够近似获得几率密度函数
继续回到咱们上面讲到黑白箱子猜球的问题,咱们的实验(统计过程)只告诉咱们拿出的求的颜色,要咱们概括推断出黑白盒子里求球的分布状况
作统计推断通常都须要对那个黑箱子作各类各样的假设,这些假设都是几率模型(能够是高斯正态分布模型),统计推断实际上就是在估计这些模型的参数

0x3:机器学习场景中大多数是统计概括问题,目的是近似获得几率

统计是由样本信息反推几率分布,如几率分布参数的点估计、区间估计,以及线性回归、贝叶斯估计等

Relevant Link:

https://www.zhihu.com/question/19911209
https://baike.baidu.com/item/大数定律/410082?fr=aladdin
https://www.zhihu.com/question/20269390
https://www.zhihu.com/question/20269390
http://blog.csdn.net/linear_luo/article/details/52760309
https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/

 

3. 似然函数

前面两个章节讨论了统计概括能够推导出几率密度,以及背后的数学理论支撑基础。因此接下来的问题就是另外一个问题了,how?咱们如何根据一个实验结果进行统计概括计算,获得一个几率密度的估计?根据实验结果概括统计获得的这个计算获得的是一个惟一肯定值吗?

0x1:似然与几率密度在概念上不等可是在数值上相等 - 因果论的一种典型场景

首先给出一个等式:

等式左边表示给定联合样本值条件下关于未知参数的函数;等式右边的是一个密度函数,它表示给定参数下关于联合样本值的联合密度函数

从数学定义上,似然函数和密度函数是彻底不一样的两个数学对象是关于的函数,是关于的函数,可是神奇地地方就在于它们的函数值形式相等,实际上也能够理解为有因就有果,有果就有因

这个等式表示的是对于事件发生的两种角度的见解,本质上等式两边都是表示的这个事件发生的几率或者说可能性

1. 似然函数 L(θ|x):再给定一个样本x后,咱们去想这个样本出现的可能性究竟是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么咱们去假设这个分布为 f,里面有参数theta。对于不一样的theta,样本的分布不同,全部的theta对应的样本分布就组成了似然函数
2. 几率密度函数 f(x|θ):表示的就是在给定参数theta的状况下,x出现的可能性多大。

因此其实这个等式要表示的核心意思都是在给一个theta和一个样本x的时候,整个事件发生的可能性多大。

0x2:几率密度函数和似然函数数值相等的一个例子

以伯努利分布(Bernoulli distribution,又叫作两点分布或0-1分布)为例:

也能够写成如下形式:

表示观测结果的不肯定性

1. 从几率密度函数角度看

上面这个公式能够当作 是关于参数 p 的函数,即 f 依赖于 p 的值。

对于任意的参数 pp 咱们均可以画出伯努利分布的几率图,当 p = 0.5 时:f(x) = 0.5。这代表参数 p = 0.5时,观测结果的不肯定性是对半开的

咱们能够获得下面的几率密度图

能够看到,参数 p 的取值越偏离0.5,则意味着观测结果的不肯定性越低

2. 从似然函数角度看

从似然的角度出发,假设咱们观测到的结果是 x = 0.5(即某一面朝上的几率是50%,这个结果多是经过几千次几万次的试验获得的),能够获得如下的似然函数:

注意:这里的 π 描述的是伯努利实验的性能而非事件发生的几率(例如 π = 0.5 描述的一枚两面均匀的硬币)

对应的似然函数图是这样的:

咱们很容易看出似然函数的极值(也是最大值)在 p = 0.5 处获得,一般不须要作图来观察极值,令似然函数的偏导数为零便可求得极值条件。偏导数求极值是最最大似然函数的经常使用方法

0x3:似然函数的极大值

似然函数的最大值意味着什么?让咱们回到几率和似然的定义,几率描述的是在必定条件下某个事件发生的可能性,几率越大说明这件事情越可能会发生;而似然描述的是结果已知的状况下,该事件在不一样条件下发生的可能性,似然函数的值越大说明该事件在对应的条件下发生的可能性越大。

如今再来看看以前提到的抛硬币的例子:

上面的 π (硬币的性质)就是咱们说的事件发生的条件,描述的是性质不一样的硬币,任意一面向上几率为50% 的可能性有多大,

在不少实际问题中,好比机器学习领域,咱们更关注的是似然函数的最大值,咱们须要根据已知事件来找出产生这种结果最有可能的条件,目的固然是根据这个最有可能的条件去推测未知事件的几率。在这个抛硬币的事件中,π 能够取 [0, 1] 内的全部值,这是由硬币的性质所决定的,显而易见的是 π = 0.5 这种硬币最有可能产生咱们观测到的结果。

0x4:对数化的似然函数

对数似然函数并非一个新的概念,它只是一个具体实现上的优化作法,由于实际问题每每要比抛一次硬币复杂得多,会涉及到多个独立事件,在似然函数的表达式中一般都会出现连乘:

对多项乘积的求导每每很是复杂,可是对于多项求和的求导却要简单的多,对数函数不改变原函数的单调性和极值位置,并且根据对数函数的性质能够将乘积转换为加减式,这能够大大简化求导的过程:

在机器学习的公式推导中,常常能看到相似的转化。

0x5:几率密度函数和似然函数数值相等的另外一个例子 - 掷硬币问题

考虑投掷一枚硬币的实验。一般来讲,已知投出的硬币正面朝上和反面朝上的几率各自是p_{H}=0.5,即可以知道投掷若干次后出现各类结果的可能性

好比说,投两次都是正面朝上的几率是0.25。用条件几率表示,就是:

,其中H表示正面朝上。

在统计学中的大多数场景中,咱们关心的是在已知一系列投掷的结果时,关于硬币投掷时正面朝上的可能性的信息。咱们能够创建一个统计模型:假设硬币投出时会有p_{H} 的几率正面朝上,而有1-p_{H} 的几率反面朝上。
这时,条件几率能够改写成似然函数:

也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时,p_{H}=0.5 的似然性是0.25(这并不表示当观测到两次正面朝上时p_{H}=0.5 的几率是0.25)。

若是考虑p_{H}=0.6,那么似然函数的值也会改变。

L(p_{H}=0.6\mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=0.6)=0.36

这说明,若是参数p_{H} 的取值变成0.6的话,结果观测到连续两次正面朝上的几率要比假设p_{H}=0.5 时更大。也就是说,参数p_{H} 取成0.6 要比取成0.5 更有说服力,更为“合理”

仔细思考,咱们就会发现,L 是关于 PH的单调递增函数,以下图:

怎么理解这张图?即在实验结果已知的 HH 状况下,最大似然估计认为最有可能的状况是PH的几率为1,即这个硬币100%都是正面(虽然咱们知道这不合理,可是反映了实验样本对似然估计合理性的影响)

总之, 似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小仍是变大。对同一个似然函数,若是存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值。

Relevant Link:

https://en.wikipedia.org/wiki/Maximum_likelihood_estimation
https://www.zhihu.com/question/54082000 
http://fangs.in/post/thinkstats/likelihood/
https://zhuanlan.zhihu.com/p/22092462
http://blog.csdn.net/sunlylorn/article/details/19610589 
https://www.cnblogs.com/zhsuiy/p/4822020.html
https://zhuanlan.zhihu.com/p/26614750
https://www.zhihu.com/question/48230067
https://zhuanlan.zhihu.com/p/22092462
http://fangs.in/post/thinkstats/likelihood/

 

4. 极大似然估计

极大似然估计是一种估计数据参数的常见统计方法,它遵循的准则是极大似然准则。极大似然准则和经验风险最小化准则同样,都是一种计算模型几率分布参数的准则,咱们后面会讨论它们的区别。

0x1:从模型参数估计的角度谈极大似然估计

笔者观点:最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能致使这样结果的模型参数值

1. 伯努利分布下的极大似然参数估计

假设一个袋子装有白球与红球,比例未知,如今抽取10次(每次抽完都放回,保证事件独立性)。

假设抽到了7次白球和3次红球,在此数据样本条件下,能够采用最大似然估计法求解袋子中白球的比例(最大似然估计是一种“模型已定,参数未知”的方法)。

咱们知道,一些复杂的问题,是很难经过直观的方式得到答案的,这时候理论分析就尤其重要了,咱们能够找到一个"逼近模型"来无限地逼近咱们要处理的问题的本质

咱们能够定义2次实验中从袋子中抽取白球和红球的几率以下

x1为第一次采样,x2为第二次采样,f为模型, theta为模型参数,X1,X2是独立同分布的

其中theta是未知的,所以,咱们定义似然L为:

L为似然的符号

由于目标是求最大似然函数,所以咱们能够两边取ln,取ln是为了将右边的乘号变为加号,方便求导(不影响极大值的推导)

两边取ln的结果,左边的一般称之为对数似然

最大似然估计的过程,就是找一个合适的theta,使得平均对数似然的值为最大。所以,能够获得如下公式:

最大似然估计的公式

咱们写出拓展到n次采样的状况

最大似然估计的公式(n次采样)

咱们定义M为模型(也就是以前公式中的f),表示抽到白球的几率为theta,而抽到红球的几率为(1-theta),所以10次抽取抽到白球7次的几率能够表示为:

10次抽取抽到白球7次的几率

将其描述为平均似然可得:

那么最大似然就是找到一个合适的theta,得到最大的平均似然(求最大极值问题)。所以咱们能够对平均似然的公式对theta求导,并另导数为0

求导过程

由此可得,当抽取白球的几率为0.7时,最可能产生10次抽取抽到白球7次的事件。

笔者思考:

若是咱们的实验结果是:前10次抽到的球都是白球,则对对数似然函数进行求导,并另导数为0,得出theta为1,即当取白球的几率是100%时,最有可能10次都抽到白球。
显然,这种"推测结果"很容易"偏离真实状况",由于极可能是由于10次都抽到白球这种小几率事件致使咱们基于观测值的最大似然推测失真,即产生了过拟合,可是形成这种现象的本质是由于"咱们的训练样本未能真实地反映待推测问题的本质",在一个很差的样本集下,要作出正确的预测也就变得十分困难。

2. 正态分布下的极大似然参数估计

咱们前面说了,事物的原本规律是很复杂的,咱们很难用一个百分百准确的模型去描述事物的本质,可是咱们能够用一些相似的通用模型去"尽量逼近"事物的本质。

高斯分布(正态分布)一种很是合理的描述随机事件的几率模型。

假若有一组采样值(x1,...,xn),咱们知道其服从正态分布,且标准差已知。当这个正态分布的指望方差为多少时,产生这个采样数据的几率为最大?

继续上个小节的例子:

基于n次实验观测值对参数theta预测的的似然函数

正态分布的公式,当第一参数(指望)为0,第二参数(方差)为1时,分布为标准正态分布

把高斯分布函数带入n次独立实验的似然函数中

对上式求导可得,在高斯分布下,参数theta的似然函数的值取决于实验观测结果,这和咱们上例中抽球实验是一致的

笔者思考:根据几率原理咱们知道,若是咱们的实验次数不断增长,甚至接近无限次,则实验的观测结果会无限逼近于真实的几率分布状况,这个时候最大似然函数的估计就会逐渐接近真实的几率分布,也能够这么理解,样本观测量的增长,会下降似然函数过拟合带来的偏差

0x2:极大似然估计和经验风险最小化准则的关系

极大似然估计准则和经验风险最小化准则(ERM),是具备必定的类似性的。

在经验风险最小化原则中,有一个假设集,利用训练集进行学习,选取假设,实现使得经验风险最小化。实际上,极大似然估计是对于特定的损失函数的经验风险最小化,也就说,极大似然估计是一种特殊形式的经验风险最小化。

对于给定的参数和观测样本 x,定义损失函数为:

也就是说,假设观测样本 X 服从分布,损失函数与 x 的对数似然函数相差一个负号。该损失函数一般被称为对数损失。

在基础上,能够验证,极大似然准则等价于上式定义的对数损失函数的经验风险最小化(仅限于对数损失函数)

这里咱们能够这么理解:经验风险最小化是一种泛化的模型求参法则,它的核心是求极值。而极大似然是一种特殊的形态,即便用对数这种形式来进行极值求导。

数据服从的潜在分布为 P(没必要知足参数化形式),参数的真实风险为:

其中, 称为相对熵,H 称为熵函数。

相对熵是描述两个几率分布的差别的一种度量。对于离散分布,相对熵老是非负的,而且等于 0 当且仅当两个分布是相同的。

因而可知,当时,真实风险达到极小值。

同时,上式还刻画了生成式的假设对于密度估计的影响,即便是在无穷多样本的极限状况下,该影响依然存在。若是潜在分布具备参数化的形式,那么能够经过选择合适的参数,使风险降为潜在分布的熵。

然而,若是潜在分布不知足假设的参数化形式,那么即便由最优参数所肯定的模型也多是较差的,模型的优劣是用熵刻画的。

上面的讨论总结一下本质就是估计风险和逼近风险的概念:

1. 估计风险:咱们的生成式假设是否足够逼近真实的潜在分布?
2. 逼近风险:咱们的训练样本可否支持模型获得合适的模型参数?

0x3:最大似然估计和最小二乘法的联系

线性回归中的最小二乘(OLSE)的策略思想是使拟合出的目标函数和全部已知样本点尽可能靠近,本质上咱们能够将拟合线(linear function)当作是一种对样本几率密度分布的表示,这样有利于咱们去思考最大似然和最小二乘法在本质上的联系

1. 最大似然估计: 
如今已经拿到了不少个样本(数据集中包含全部因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生几率最大。
由于你手头上的样本已经实现了,其发生几率最大才符合逻辑。这时是求样本全部观测的联合几率最大化,是个连乘积,只要取对数,就变成了线性加总。
此时经过对参数求导数,并令一阶导数为零,就能够经过解方程(组),获得最大似然估计值。
2. 最小二乘:
找到一个(组)估计值,使得实际值与估计值的距离最小。
这里评估实际值和估计值之间距离的函数就叫“损失函数”,一个经常使用的损失函数是平方和损失,找一个(组)估计值,使得实际值与估计值之差的平方加总以后的值最小,称为最小二乘。
这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。

论及本质,其实二者只是用不一样的度量空间来进行的投影:

最小二乘(OLS)的度量是L2 norm distance;

而极大似然的度量是Kullback-Leibler divergence(KL散度)

1. 一个例子说明最大似然和最小二乘区别

设想一个例子,教育程度和工资之间的关系。咱们能够观察到的数据是:教育程度对应着一个工资的样本数据

1)OLS的作法

咱们的目标是找到二者之间的规律,若是样本集中只有2个点,则计算是很是简单的,既不须要OLS也不须要最大似然估计,直接两点连成一条线便可。可是咱们知道OLS和最大似然都是一种数学工具,它要解决的状况就是大量样本集时的数学计算问题。

若是咱们的学历-工资样本集大数量到达3个点,且这3个点不共线,那显然咱们就没法经过肉眼和直觉判断直接获得linear regression function了。以下图:

若是这三个点不在一条线上,咱们就须要做出取舍了,若是咱们取任意两个点,那么就没有好好的利用第三个点带来的新信息,而且由于这三个点在数据中的地位相同,咱们如何来判定应该选用哪两个点来做为咱们的基准呢?这就都是问题了。

这个时候咱们最直观的想法就是『折衷』一下,在这三个数据,三条线中间取得某种平衡做为咱们的最终结果,相似于上图中的红线这样。

那接下来的问题就是,怎么取这个平衡了?

咱们须要引入一个数学量化的值:偏差,也就是咱们要认可观测到的数据中有一些因素是不可知的,不能彻底的被学历所解释。而这个不能解释的程度天然就是每一个点到红线在Y轴的距离。

有了偏差这个度量的手段,即咱们认可了有不能解释的因素,可是咱们依然想尽量的让这种『不被解释』的程度最小,因而咱们就想最小化这种不被解释的程度。由于点可能在线的上面或者下面,故而距离有正有负,取绝对值又太麻烦,因而咱们就直接把每一个距离都取一个平方变成正的,而后试图找出一个距离全部点的距离的平方最小的这条线,这就是最小二乘法了。

2)极大似然的作法

极大似然的估计则更加抽象一些,咱们观察到了这3个点,说明这3个点是其背后“真实规律模型对应的数据集”中选出的最优表明性的3个,因此咱们但愿找到一个特定的底薪和教育增量薪水的组合,让咱们观察到这三个点的几率最大,这个找的过程就是极大似然估计。

极大似然估计是寻找一个几率函数分布,使之最符合现有观测到的样本数据。

笔者思考:在神经元感知机算法中,求损失函数最小值(经验风险最小)寻找分界面的本质和极大似然求解是同样的,都是在寻找一个有最大几率产生当前观察样本的模型

Relevant Link:

https://zhuanlan.zhihu.com/p/24602462
https://www.zhihu.com/question/26201440
https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
https://www.zhihu.com/question/20447622 
http://blog.csdn.net/feilong_csdn/article/details/61633180
https://www.cnblogs.com/ChengQH/p/e5dd604ee211533e50187c6fd37787bd.html

 

5. 贝叶斯估计 - 包含先验假设(正则化)的极大似然估计

0x1:贝叶斯估计是对极大似然估计的一种改进

最大似然估计存在必定的缺陷

1. 最大似然估计属于点估计,只能获得待估计参数的一个值。可是在有的时候咱们不只仅但愿知道,咱们还但愿知道取其它值得几率,即咱们但愿知道整个在得到观察数据后的分布状况
2. 最大似然估计仅仅根据(有限的)观察数据对整体分布进行估计,在数据量不大的状况下,可能不许确。
例如咱们要估计人的平均体重,可是抽样的人都是小孩,这样咱们获得的平均体重就不能反映整体的分布,而咱们应该把“小孩之占总人口20%”的先验考虑进去。这时咱们能够用贝叶斯方法。

贝叶斯估计和最大似然估计最大的区别我认为在于:

贝叶斯估计对假设空间的几率分布有一个预先的假设(先验),而不是彻底无脑地信任观测样本数据,它至关于先创建一个初始基线值,而后根据观测样本值去不断修正它,这样修正后的结果具备很好的稳定性,不会随着观测样本的波动而波动。

0x2:贝叶斯法则

贝叶斯法则又被称为贝叶斯定理、贝叶斯规则,是指几率统计中的应用所观察到的现象对有关几率分布的主观判断(即先验几率)进行修正(训练过程当中不断修正)的标准方法。当分析样本大到接近整体数时,样本中事件发生的几率将接近于整体中事件发生的几率。

贝叶斯统计中的两个基本概念是先验分布后验分布

1. 先验分布: 
整体分布参数θ的一个几率分布。贝叶斯学派的根本观点,是认为在关于整体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺乏的一个要素。
他们认为先验分布没必要有客观的依据,能够部分地或彻底地基于主观信念。
2. 后验分布:
根据样本分布和未知参数的先验分布,用几率论中求条件几率分布的方法,求出的在样本已知下,未知参数的条件分布。由于这个分布是在抽样之后才获得的,故称为后验分布。

0x3:贝叶斯估计公式

贝叶斯估计,是在给定训练数据D时,肯定假设空间 H 中的最佳假设,通常定义为:

在给定数据 D 以及假设空间 H 中,不一样的先验几率下,最可能存在的后验假设分布。

贝叶斯估计的公式以下:

p(h|D) = P(D|H) * P(H) / P(D)

先验几率用 P(h) 表示,它表示了在没有训练数据前假设 h 拥有的初始几率(训练前的一个初始的先验假设)。先验几率反映了咱们关于 h 分布的主观认知,若是咱们没有这一先验知识,能够简单地将每一候选假设赋予相同的先验几率(平均几率也是一种合理的先验假设);
P(D)表示训练数据D的先验几率;
P( D | H )表示假设h成立时D的几率;

机器学习中,咱们关心的是P( H | D ),即给定D时 H 的成立的几率,称为 H 的后验几率。

贝叶斯公式提供了从先验几率P(h)、P(D)和P( D | H)计算后验几率P(H|D)的方法,即提供了一种从现象回溯规律本质的方法。

对贝叶斯估计的公式,能够这么来理解:

咱们的目标P(H|D),随着P(h)和P(D|H)的增加而增加,随着P(D)的增加而减小。

即若是D独立于H时被观察到的可能性越大,那么D对h的支持度越小,或者说D中包含的对推测出h的有效信息熵越小,即这是一份对咱们的推测基本没有帮助的数据

Relevant Link:

http://www.cnblogs.com/jiangxinyang/p/9378535.html

 

6. 最大后验估计 MAP - 包含先验假设(正则化)的极大似然估计

0x1:MAP和贝叶斯估计的区别

对于最大后验估计MAP,首先要说明的一点的是,最大后验估计和咱们上一章节讨论的贝叶斯估计在数学公式上很是相似,在统计思想上也很相似,都是以最大化后验几率为目的。区别在于:

1. 极大似然估计和极大后验估计MAP只须要返回预估值,贝叶斯估计要计算整个后验几率的几率分布;
2. 极大后验估计在计算后验几率的时候,把分母p(D)给忽略了,在进行贝叶斯估计的时候则不能忽略;

0x2:MAP估计的数学公式

假设 x 为独立同分布的采样,θ为模型参数,f 为咱们所使用的模型。那么最大似然估计能够表示为:

如今,假设θ的先验分布为g。经过贝叶斯理论,对于θ的后验分布以下式所示:

后验分布的目标为:

,分母并不影响极大值的求导,所以能够忽略。

最大后验估计能够看作贝叶斯估计的一种特定形式。

0x3:MAP估计举例

假设有五个袋子,各袋中都有无限量的饼干(樱桃口味或柠檬口味),已知五个袋子中两种口味的比例分别是

    樱桃 100%

    樱桃 75% + 柠檬 25%

    樱桃 50% + 柠檬 50%

    樱桃 25% + 柠檬 75%

    柠檬 100%

若是只有如上所述条件,那问从同一个袋子中连续拿到2个柠檬饼干,那么这个袋子最有多是上述五个的哪个?

咱们知道,最大后验几率MAP是正则化的最大似然几率,咱们首先采用最大似然估计来解这个问题,写出似然函数。

假设从袋子中能拿出柠檬饼干的几率为p,则似然函数能够写做:

因为p的取值是一个离散值,即上面描述中的0,25%,50%,75%,1。咱们只须要评估一下这五个值哪一个值使得似然函数最大便可,根据最大似然的计算,确定获得为袋子5。

上述最大似然估计有一个问题,就是没有考虑到模型自己的几率分布(即没有考虑模型自己的复杂度)(结构化风险),下面咱们扩展这个饼干的问题。对模型自身的复杂度进行先验估计

拿到袋子1的几率是0.1 拿到袋子2的几率是0.2 拿到袋子3的机率是0.4 拿到袋子4的机率是0.2 拿到袋子5的机率是0.1 # 类高斯分布

那一样上述问题的答案呢?这个时候就变MAP了。咱们根据公式

写出咱们的MAP函数

根据题意的描述可知,p的取值分别为0,25%,50%,75%,1,g的取值分别为0.1,0.2,0.4,0.2,0.1。分别计算出MAP函数的结果为:

0 * 0 * 0.1 = 0 0.25 * 0.25 * 0.2 = 0.0125 0.5 * 0.5 * 0.4 = 0.1 0.75 * 0.75 * 0.2 = 0.1125 1 * 1 * 0.1 = 0.1

由上可知,经过MAP估计可得结果是从第四个袋子中取得的最高。

能够看到,虽然观测结果代表最大似然应该是第5个袋子,可是在加入正则化(模型复杂度)先验后,获得的结果被修正了。

Relevant Link:

https://lagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdf
https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/
https://en.wikipedia.org/wiki/N-gram
http://www.jianshu.com/p/f1d3906e4a3e
http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html
http://www.cnblogs.com/xueliangliu/archive/2012/08/02/2962161.html
http://www.cnblogs.com/stevenbush/articles/3357803.html
http://blog.csdn.net/guohecang/article/details/52313046
http://www.cnblogs.com/burellow/archive/2013/03/19/2969538.html

Copyright (c) 2018 LittleHann All rights reserved 

相关文章
相关标签/搜索