信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息。

一直就对机器学习中各类XX熵的概念比较模糊,如今总结一下本身的学习心得。html

信息量算法

先说一下信息量的概念,其实熵就是信息量的集合。app

摘抄个例子:机器学习

英文有26个字母,假设每一个字母出现的几率是同样的,每一个字母的信息量就是 - log2 1/26 = 4.7(这就是个公式,如今不懂先不用管);经常使用的汉字有2500个,每一个汉字的信息量是 - log2 1/2500 =11.3。因此在信息量相同的状况下,使用的汉字要比英文字母要少——这其实就是十六进制和二进制的区别,在这个例子中,apple成了5位26进制的数值,信息量4.7 * 5 = 23.5;而苹果成为2位2500进制的数值,信息量11.3 * 2 = 22.6。虽然表示的方式不一样,但信息量差很少(这是一个很巧合的例子,仅用于说明信息量的含义,大多数词语都不会这么接近)。函数

个人理解是,英文中须要用23.5的二进制定位一个单词,汉语中使用22.6个二进制定位一个单词。学习

信息量是对应一个事件的熵,若想衡量一个系统有多少信息量,就要用到熵的概念。spa

信息量就是不肯定度,越是不能判断将来有多少可能,信息度就越大。htm

blog

熵是用来衡量一个系统混论程度的物理量,表明一个系统中蕴含多少信息量,信息量越大代表一个系统不肯定性就越大,就存在越多的可能性。事件

       熵(entropy)就用来衡量整个系统的整体信息量,其计算公式以下

至于这个公式怎么导出的,比较麻烦,这里能够直观的理解一下。

熵是平均信息量,也能够理解为不肯定性。例如进行决赛的巴西和南非,假设根据经验判断,巴西夺冠的概率是80%,南非夺冠的概率是20%,则谁能得到冠军的信息量就变为 - 0.8 * log2 0.8- 0.2 * log2 0.2 = 0.257 + 0.464 = 0.721,小于1 bit了。经验减小了判断所需的信息量,消除了不肯定性。

 

并且经过计算能够发现,巴西夺冠的概率越高,计算出的熵就越小,即越是肯定的状况,不肯定性越小,信息量越少。若是巴西100%夺冠,那么熵是0,至关于没有任何信息。当两队概率都是50%最难判断,所熵达到最大值1。其实以前的 - log2 1/2= 1 bit 是简化了的计算过程,其结果也是经过熵的公式来计算的 - 0.5 * log2 0.5 - 0.5* log2 0.5 = 1 bit,计算信息量要综合考虑每种结果的可能性。

 

另外一个会迷惑的问题是熵会大于1吗?答案固然是确定的,刚刚计算的最大值为1bit,是由于最终的结果只有两种状况。在有四支球队的时候,其最大值就是 - 0.25 * log20.25 - 0.25 * log2 0.25 - 0.25 * log2 0.25 - 0.25 * log2 0.25 =2 bit,当四支球队夺冠几率不等的时候,熵会小于2 bit。

我记得有个公式能够计算最大熵,在哪里?

用处:决策树ID3和C4.5算法中,使用熵做为选择决策点的标准。

最大熵

就是在系统均衡的时候,系统的熵最大。


联合熵(KL距离,交叉熵)


个人理解,联合熵是为了导出条件熵和互信息的一个定义,

性质:

大于每一个独立的熵

2个变量的联合熵大于或等于这2个变量中任一个的独立熵。


少于独立熵的和

2个变量的联合熵少于或等于2个变量的独立熵之和。这是次可加性的一个例子。该不等式有且只有在和均为统计独立的时候相等。


这代表,两个变量关联以后不肯定性会增大,可是又因为相互有制约关系,不肯定小于单独两个变量的不肯定度之和。

 


条件熵


 

性质:


就是在事件X的前提下,事件Y的熵,

用处:决策树的特征选择,实际上使用的信息增益,就是用G(D,A)=H(Y)-H(Y|X)。能够看出在X的条件下,Y的不肯定度降低了多少。

 

 

相对熵


也叫交叉熵。

相对熵越大,两个函数差别越大;反之,相对熵越小,两个函数差别越小。

用处:在聚类算法中,使用相对熵代替欧几里得距离,计算连个节点的相关度,听说效果不错。度量两个随机变量的差别性。


这幅图就是说,p分布和q分布共有的部分相对熵就是正的,非共有部分就是负的,D(p||q)就是面积的求和。

互信息

 

了解Y的前提下,消除X的不肯定度。(注意和链式法则不同)

 

 相关文章:

http://gaofeihang.blog.163.com/blog/static/8450828520128139648199/

熵(Entropy)、联合熵、条件熵、相对熵、互信息:http://blog.sohu.com/people/f21996355!f/123258006.html

只是概念性的描述,没法看出这几种熵之间的联系和用处,因此本身写一篇。

相关文章
相关标签/搜索