熵、联和熵与条件熵、交叉熵与相对熵是什么呢?详细解读这里有!

熵是一个很常见的名词,在物理上有重要的评估意义,天然语言处理的预备知识中,熵做为信息论的基本和重点知识,在这里我来记录一下学习的总结,并以此与你们分享。html

信息论基本知识

一、熵

二、联和熵与条件熵

三、互信息

四、交叉熵与相对熵

五、困惑度

六、总结

一、熵

熵也被称为自信息,描述一个随机变量的不肯定性的数量。熵越大,代表不肯定性越大,所包含的信息量也越大,就说明很难去预测事件行为或者正确估值。
熵的公式定义:app

解答:机器学习

 

这里计算将相同几率的字符合并计算,结果代表什么呢?
结果说明传输一个字符平均只须要2.5个比特:学习

字符 a b c d e f
编码 100 00 101 01 110 111

二、联和熵与条件熵

联和熵描述一对随机变量平均所须要的信息量。公式定义:
测试

 与之联系密切的条件熵指的是:给定X的状况下,Y的条件熵为:编码

 

 将以上公式(1)化简能够获得 H(X,Y)=H(X)+H(YX) 公式(4),被称为熵的连锁规则。
spa

三、互信息

熵的连锁规则H(X,Y)=H(X)+H(YX)=H(Y)+H(XY), 因此H(X)H(XY)=H(Y)H(YX),这个差就成为互信息,记做I(X;Y) 。.net

I(X;Y)YX在图中I(X;Y)反映的是已知Y的值后X的不肯定性的减小量。I(X;Y)YX。简而言之,Y的值透露了多少关于X的信息量。
由于H(X|X)=0,因此H(X)=H(X)-H(X|X)=I(X;X),这公式推导说明了熵也成为自信息的概念,也说明两个彻底相互依赖的变量之间的互信息并非一个常量,而是取决定于它们的熵。
实际应用: 互信息描述了两个随机变量之间的统计相关性,平均互信息是非负的,在NLP中用来判断两个对象之间的关系,好比:根据主题类别和词汇之间的互信息进行特征提取。另外在词汇聚类、汉语自动分词、词义消岐、文本分类等问题有着重要用途。
设计

四、交叉熵与相对熵

相对熵简称KL差别或KL距离,衡量相同时间空间里两个几率分布相对差别的测度。3d

根据公式可知,当两个随机分布彻底相同时,即p=q,其相对熵为0。当两个随机分布差异增长,相对熵的指望值也增大。
相对熵与互信息的联系以下证实:

相对熵证实
交叉熵就是机器学习中常常提到的一种熵的计算。它究竟是什么呢?

交叉熵是衡量估计模型与真实几率分布之间之间差别状况。
若是一个随机变量X~p(x),q(x)为用于近似p(x)的几率分布,则实际p与模型q之间的交叉熵定义为:

 

在设计模型q时候,目的是使交叉熵最小,这样模型的表现更好,从而使模型更接近最真实的几率分布p(x),通常的,当样本足够大时候,上面计算近似为:

五、困惑度

在设计语言模型,一般用困惑度(perplexity)来代替交叉熵衡量语言模型的好坏。

 

因此,寻找困惑度最小的模型成为模型设计的任务,一般指的是模型对于测试数据的困惑度。

六、总结

在信息论的熵部分,咱们学到了什么呢?开始说到,这是NLP基础,也是入门机器学习的重要理论部分。

  1. (自信息):描述一个随机变量的不肯定性的数量。熵越大,代表不肯定性越大,所包含的信息量也越大,就说明很难去预测事件行为或者正确估值。
  2. 联和熵:描述一对随机变量平均所须要的信息量。
  3. 条件熵:给定X的状况下,经过联和熵计算Y的条件熵,相似于条件几率思想。由此引出互信息概念。
  4. 相对熵:简称KL差别或KL距离,衡量相同时间空间里两个几率分布相对差别的测度,与互信息密切相关。
  5. 交叉熵:衡量估计模型与真实几率分布之间之间差别状况。

学习以后的一些记录,发现这部分知识在其余方面常常说起到,殊不知其原理知识,所以作了一个简单的总结备忘,与尔共享!

更好的阅读体验请转至个人CSDN博客哦!


个人CSDN博客:熵、联和熵与条件熵、交叉熵与相对熵是什么呢?来这里有详细解读!

个人博客园:熵、联和熵与条件熵、交叉熵与相对熵是什么呢?详细解读这里有!

————————————————版权声明:本文为CSDN博主「Charzous」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处连接及本声明。原文连接:https://blog.csdn.net/Charzous/article/details/107669211