© 飞翔的猪ospa
说明:本文是做者在看了weixin公众号【超智能体】录制的学习视频后的总结,有须要请移步公众号【超智能体】,利益无关,良心推荐。大多数教材都将信息和熵混为一谈,统称为信息熵,这实际上是不恰当的,于是有了这篇文章的诞生。视频
定义熵以前,首先说明什么是宏观态和微观态。事件
具体的一件事情为宏观态,而这件事情有多种可能状况发生,每种可能状况叫微观态。数学
好比:抛掷硬币这件事,称做宏观态,而正面朝上和反面朝上做为两种可能的状况,都是微观态。it
熵:当一件事情有多种可能状况时,这件事情对某人而言到底是那种状况发生的不肯定性叫作熵。class
信息:信息是可以消除某人对某件事情的不肯定的事物。信息和能量、质量同样,是实实在在存在的事物,是可量化的。基础
所以能够说,获取信息就是消除熵,熵和信息数量相等,但意义相反。所以,度量信息的时候,实际上咱们真正求的是熵的量,即某件事情(宏观态)的不肯定性的大小。总结
至于熵(信息)怎么度量,后面讲。通信
信息是来消除熵(不肯定性)的。为了好理解,如今熵后面我都加(不肯定性)。得到多少信息,就消除了多少熵(不肯定性),这些消除不肯定性的信息分为三种类型:
上面三条的确很差理解,下面举例解释。
小明正在作一选择题,有ABCD四个选项,正确答案是C。小明彻底不会这道题,那么小明对于四个选项(微观态)的不肯定性最大,即熵最大。小明选择任一选项的几率都是25%。为消除不肯定性,小明须要知道一些信息:
因此如今应该理解了:获取信息=消除熵(不肯定性)。
若是小红告诉小明答案是A,这显然是错的,那这是否是“假信息”呢?
在上面的定义下,其实并无“假信息”这种说法。小红告诉小明答案是A,根本就不是信息,或者说:信息量是0,由于小明听到获得这句话后,并无减小不肯定性,小明依旧彻底没有得到可以帮助他获得该事件究竟哪一种状况发生的任何信息。
“小红告诉小明答案是A”,若是这不是信息,那这是什么呢?
数据,或者说是噪音。所谓噪音,是指干扰某人得到信息的事物,而数据是信息和噪音的混合体,须要用知识将其分离。
那么几率和熵又有什么区别呢?
几率是某件事情(宏观态)的某个可能状况(微观态)发生的肯定性。
而熵是某人对某件事情到底哪一种状况发生的不肯定性。
二者是有本质不一样的。下面举例说明。
如咱们说,抛硬币正面朝上的几率是50%,是说,抛一枚硬币,正面朝上这个可能状况(微观态)发生的肯定性是50%,或者通俗的说:咱们有50%的把握认为正面朝上。
而熵指的是,咱们对“抛硬币”这一事件(宏观态),到底是正面朝上仍是反面朝上的不肯定性是多少。消除这个不肯定性,须要信息,那么,信息如何度量?
在说明度量信息以前,必须明确信息的几个性质。
第一点很容易理解,小红能够用语言告诉小明正确答案是C(媒介是声波),也能够写在纸上(媒介是纸),两种状况下小明都可以准确的接收到该信息,与媒介无关。
第二点指的是,信息的数量是相对个体而言的。小刚原本就知道正确答案是C,那么他对这道题就没有不肯定性,当他听到小红的话“正确答案是C”,对小刚来讲信息量是0。而对于小明,信息量却不是0。
第三点指的是,对不一样事件,信息的数量是不一样的。这点也很容易理解,假如这道题只有AB两个选项,小明就会有50%的可能性选中,那么小明对这道题的不肯定性就相对小一些。
但必须明确,信息虽然是相对的,信息倒是天然界实实在在存在的,不随人的主观意识而改变,即便对小刚来讲信息量为0,信息也是实际存在的,这和能感觉到的质量等物理量是有很大区别的。
于是,能够这样定义信息:信息描述的是一个观察者肯定一个宏观态是哪一种微观态时所需的物理量。下面正式说明信息的度量。
前面提到,信息和质量同样,是天然界实实在在存在的物理量,那么咱们想一想质量是怎么度量的?(即kg是怎么定义的)。
咱们如今说1kg,最初也没有kg的概念,而是选择了一个参照物体,定义它的质量为1kg,以后说其余物体的质量,就是多少个参照物体,好比说某个物体8kg,就是说该物体的质量至关于8个参照物体,说某个物体m kg,就是说该物体至关于m个参照物体,这个m其实是这么算的:
拿一天平,左边放m个参照物体,右边放被测物体,左边为\(m*1kg\),为乘法,此时天平刚好平衡。因此已知被测物体的质量,要知道他至关于多少个参照物体(即度量),只要采起乘法的逆运算-除法,被测物体质量除以参照物体的质量(1kg),就是该物体的质量的一个度量。
而信息的度量也是相似的。
咱们知道,信息是用来某事情消除不肯定性的,即和熵的数量相等。那么,信息即为某件事物的不肯定性的大小。咱们是否也能够找一件参照事件,定义某事件的不肯定性为“多少个”该参照事件不肯定性?
答案是确定的。咱们选取参照事件为抛掷硬币,那么毫无疑问有两种微观态,等几率为50%,咱们定义该参考事件的不肯定性(即信息量)为1bit,其余事件的不肯定性的度量都相对于该参考事件。
可是这可和质量不同,不是简单地倍数关系。且看:
抛掷1个硬币有2种微观态,信息量为1bit。
抛掷2个硬币有4种微观态,信息量为2bit。
抛掷3个硬币有8种微观态,信息量为3bit。
抛掷4个硬币有16种微观态,信息量为4bit。
可见,若某个事件有16种微观态,那么他的不肯定性,即信息量为4bit。这是怎么算的呢?抛掷硬币数与微观态显然是指数关系,而若已知微观态数,至关于抛掷了多少个硬币(即至关于多少个参考事件的不肯定性)是指数运算的逆运算--即对数运算。因此,已知m种微观态,且m种微观态等可能发生,那么不肯定性,即信息量计算为信息量\(I=log_2m\),单位是bit。
须要指出的是,上面选择参照事件是抛硬币,彻底能够选择其余事件,那么求对数的底就会相应变化。
还有一个问题,现实生活中并非全部事件的微观态都是等可能发生的,好比彻底存在下面这种事件:
事件A有4种微观态abcd,发生的几率分别为\(;;;a:1/6;b:1/6;c:1/6;d:1/2\)。那么事件A的不肯定性(即熵,即信息量大小)该如何计算呢?
答案是,分别计算四种微观态的信息量,再加权平均,即各自乘以本身的几率求和:
\(I(A)=P(a)*I(a)+P(b)*I(b)+P(c)*I(c)+P(d)*I(d)\);
那么显然剩下的问题是:\(I(a)\)如何计算?显然不能再用公式\(I=log_2a\)。由于微观态\(a\)做为一个事件,咱们是不知道更多细节的。
咱们知道,几率\(p = 1/100\)至关于某事件有100种微观态,每种微观态的可能性都是1%。那么显然,几率\(p\)的倒数\(1/p\)就是等可能微观态的数量。那么很显然,微观态\(a\)做为事件的信息量就是\(I(a)=log_2(1/P(a))\)。
从而,计算事件A的信息量变成了:
\(I(A)=P(a)*log_2(1/P(a))+P(b)*log_2(1/P(b))+P(c)*log_2(1/P(c))+P(d)*log_2(1/P(d))\);
更通常的,对于事件(宏观态)A,有m种微观态,其中第i种微观态的可能性是\(P(i)\),那么消除他的不肯定性所需的信息量,也就是熵的大小是:\(\sum_{i=1}^{m}{P(i)*log(1/P(i))}\);
须要说明的是,式子中,\(log(1/P(i))\)称做自信息。
由此,咱们推导出了熵的计算公式:
\(Entropy(A) =\sum_{i=1}^{A}{P(i)*log(1/P(i))}\)
根据数学知识可知:
\(Entropy(A)=E(log(1/P(i)))\),即熵的大小为自信息的指望。
上面的论述是香农理论的基础,也奠基了咱们今天的通讯基础,但香农彻底从数学的角度推导出,我不信有天才,可我实在想不出什么别的词来形容他。