信息熵的简单理解

  ,信息熵在机器学习和深度学习中是十分重要的。那么,信息熵究竟是什么呢?机器学习

  首先,信息熵是描述的一个事情的不肯定性。好比:我说,太阳从东方升起。那么这个事件发生的几率几乎为1,那么这个事情的反应的信息量就会很小。若是我说,太阳从西方升起。那么这就反应的信息量就很大了,这有多是由于地球的自转变成了自东向西,或者地球脱离轨道去到了别的地方,那么这就可能致使白天变成黑夜,热带雨林将变成沙漠,东北亚将再也不是苦寒之地,而是如今的西欧同样的海洋性季风气候,而西欧变成寒带大陆性气候跟如今的东北亚苦寒之地同样。函数

  那么,太阳从东方升起这个事件,几率很大,信息量就会不多。相反,太阳从西方升起,几率很小,信息量就会不少。所以,信息熵常被用来做为一个系统的信息含量的量化指标,从而能够进一步用来做为系统方程优化的目标或者参数选择的判据。学习

  先来一个信息熵的公式:优化

    

  其中:𝑝(𝑥𝑖)表明随机事件𝑥𝑖的几率。 blog

  由上面太阳东升西落,西升东落很容易看出,信息量是随着发生的几率的增大而减小的,并且不能为负。事件

  另外,若是咱们有两个不相关事件A和B,那么能够得知这两个事情同时发生的信息等于各自发生的信息之和。即h(A,B) = h(A) + h(B)深度学习

  并且,根据贝叶斯定理,p(A,B) = p(A) * p(B)变量

  根据上面说到的说熵的定义应该是几率的单调函数。咱们很容易看出结论熵的定义 h 应该是几率 p(x)log 函数,所以一个随机变量的熵可使用如下定义:im

  \[h(x)=-log_2p(x)\]

  此处的负号,仅仅是为了保证熵为正数或者为零,而log函数的基数2可使任意数,只不过根据广泛传统,使用2做为对数的底。db

  咱们用熵来评价整个随机变量x平均的信息量,而平均最好的量度就是随机变量的指望,即信息熵的定义以下:


    H[x]=-\sum_xp(x)log_2p(x)

  最终的公式就出来了!还要说明的是,当这个事情必定发生的时候,发生的几率就为1,那么它的信息量为0,信息熵就为0。

相关文章
相关标签/搜索