我就不信看完这篇你还搞不懂信息熵

我就不信看完这篇你还搞不懂信息熵函数

 

https://mp.weixin.qq.com/s/7NrB0UtmELXD3UNO3C6jGAspa

 

 

让咱们说人话!好的数学概念都应该是通俗易懂的。翻译

 

信息熵,信息熵,怎么看怎么以为这个“熵”字不顺眼,那就先不看。3d

 

咱们起码知道这个概念跟信息有关系。而它又是个数学模型里面的概念,通常而言是能够量化的。因此,第一个问题来了:信息是否是能够量化?blog

 

起码直觉上而言是能够的,否则怎么可能咱们以为有些人说的废话特别多,“没什么信息量”,有些人一语中的,一句话就传达了很大的信息量。事件

 

信息量与什么有关?数学

 

为何有的信息量大有的信息量小?io

 

有些事情原本不是很肯定,例如明天股票是涨仍是跌。若是你告诉我明天NBA决赛开始了,这二者彷佛没啥关系啊,因此你的信息对明天股票是涨是跌带来的信息量不多。可是假如NBA决赛一开始,你们都不关注股票了,没人坐庄股票有99%的几率会跌,那你这句话信息量就很大,由于原本不肯定的事情变得十分肯定。class

 

而有些事情原本就很肯定了,例如太阳从东边升起,你再告诉我一百遍太阳从东边升起,你的话仍是丝毫没有信息量的,由于这事情不能更肯定了。基础

 

因此说信息量的大小跟事情不肯定性的变化有关。

 

那么,不肯定性的变化跟什么有关呢?

 

1、跟事情的可能结果的数量有关;2、跟几率有关。

 

先说一。

例如咱们讨论太阳从哪升起。原本就只有一个结果,咱们早就知道,那么不管谁传递任何信息都是没有信息量的。当可能结果数量比较大时,咱们获得的新信息才有潜力拥有大信息量。

 

二,单看可能结果数量不够,还要看初始的几率分布。例如一开始我就知道小明在电影院的有15*15个座位的A厅看电影。小明能够坐的位置有225个,可能结果数量算多了。但是假如咱们一开始就知道小明坐在第一排的最左边的多是99%,坐其它位置的可能性微乎其微,那么在大多数状况下,你再告诉我小明的什么信息也没有多大用,由于咱们几乎肯定小明坐第一排的最左边了。

 

信息量应知足的特色

 

那么,怎么衡量不肯定性的变化的大小呢?怎么定义呢?这个问题很差回答,可是假设咱们已经知道这个量已经存在了,不妨就叫作信息量,那么你以为信息量起码该知足些什么特色呢?

 

一,起码不是个负数吧,否则说句话还偷走信息呢~

 

二,起码信息量和信息量之间能够相加吧!假如你告诉个人第一句话的信息量是3,在第一句话的基础上又告诉我一句话,额外信息量是4,那么两句话信息量加起来应该等于7吧!难道还能是5是9?

 

三,刚刚已经提过,信息量跟几率有关系,但咱们应该会以为,信息量是连续依赖于几率的吧!就是说,某一个几率变化了0.0000001,那么这个信息量不该该变化很大。

 

四,刚刚也提过,信息量大小跟可能结果数量有关。假如每个可能的结果出现的几率同样,那么对于可能结果数量多的那个事件,新信息有更大的潜力具备更大的信息量,由于初始状态下不肯定性更大。

 

那有什么函数能知足上面四个条件呢?负的对数函数,也就是-log(x)!底数取大于1的数保证这个函数是非负的就行。前面再随便乘个正常数也行。

 

a. 为何不是正的?由于假如是正的,因为x是小于等于1的数,log(x)就小于等于0了。第一个特色知足。

 

b. 我们再来验证一下其余特色。三是最容易的。假如x是一个几率,那么log(x)是连续依赖于x的。done

 

c。四呢?假若有n个可能结果,那么出现任意一个的几率是1/n,而-log(1/n)是n的增函数,没问题。

 

d。最后验证二。因为-log(xy) = -log(x) -log(y),因此也是对的。学数学的同窗注意,这里的y能够是给定x的条件几率,固然也能够独立于x。

 

By the way,这个函数是惟一的(除了还能够多乘上任意一个常数),有时间能够本身证实一下,或者查书。

 

ok因此咱们知道一个事件的信息量就是这个事件发生的几率的负对数。

 

回到信息熵

 

最后终于能回到信息熵。

 

信息熵是跟全部可能性有关系的。每一个可能事件的发生都有个几率。信息熵就是平均而言发生一个事件咱们获得的信息量大小。因此数学上,信息熵实际上是信息量的指望。(表达式参考下方)

 

至于为何用“熵”这个怪字?大概是当时翻译的人以为这个量跟热力学的熵有关系,因此就用了这个字,君不见字里头的火字旁?

 

而热力学为何用这个字?这个真心不知道。。。

 

据 @林杰威 的说法:熵最先是由热力学定义的一个函数,是普朗克来中国讲学的时候引入的。英文是“entropy”这个字,中文词汇中没有相关的字眼。当时是一个有名的姓胡的学者做为普朗克的翻译。由于这个熵“S”是定义为热量Q与温度的比值,因此当时他翻译是马上创造出熵这个字,从火,从商。

 

 

欢迎讨论指正。

 

来自: 

滴水 - 知乎 - 信息熵是什么?

https://www.zhihu.com/question/22178202/answer/49929786