聊聊香农的信息熵

复杂的世界

咱们生活在一个极其复杂的世界,不论是小到分子原子亦或是大到整个宇宙,其复杂程度都是超乎想象。或许你未曾深刻去思考过身边事物的复杂性,那是由于你已经对你平常所见习觉得常。全部在你出生以前发明的事物都是这个世界的天然组成部分,因此不少事物给人的感受都是这个世界原本的样子。mysql

复杂世界

像人类这样复杂的事物时如何出现的?像电脑这般复杂的事物是如何出现的?像大河山川那样复杂的事物又是怎样出现的呢?某些事物和另外某些事物是否有什么联系?周围的不少复琐事物也许并无什么明显的规律,并且不少事物联系都并不是是肯定性的关系。算法

信息是什么

信息这个词让咱们感到熟悉而又陌生。熟悉是由于咱们所处在一个信息时代,跟生活密切相关的就有大量的各类信息,好比书籍、手机、电脑等。而陌生是由于很难精确说明信息是什么而且如何量化信息,好比“地球是圆的”一句话包含了多少信息呢,在古代和现代这句话包含的信息量是否是就不同了呢。sql

image

万物都包含着信息,信息可被处理并使用(从广义上称为计算),从广义的信息和信息处理角度看,咱们看到的事物变化实际上是宇宙的计算。也许能够说世界的本质就是信息+计算。不少科学家认为最有但愿统一广义相对论和量子力学的就是信息理论。网络

image

丈量信息

将信息量化是信息革命的基础,在香农发表《通讯的数学理论》以前,信息是一个很抽象并且没法具体确切定义的东西,好比一我的说某公司拥有大量的信息,它有一亿封邮件,那一亿封邮件包含了多少信息?而在物理和化学等领域都已经有各种量纲能够用于丈量各种物体特性,为了让信息能够测量,香农独自提出了比特(bit)概念,使用比特来丈量信息,比特也成为了量纲成员。数据结构

image

信息熵

熵是物理学的概念,在热力学系统中,熵和能量能够用来刻画系统的变化。熵能够在分子层面进行理解,物理系统由原子分子组成,全部粒子的瞬时状态(位置、速度)描述了总体状态。粒子不断从某个微观态转变到另外一个微观态,而熵对应着微观态的数量,微观态越多熵就越高。也就是说熵用来表示不肯定程度。并发

image

image

借鉴于物理学中的熵的概念,香农将其引入到通讯领域,香农认为某个系统要携带信息就必需要有多个状态,并且状态越多,所能包含的信息就越多。此外,还须要引入几率问题,由于在给定条件下,全部可能状态的几率之和必须为1。而可能状态越多则平均任意一个状态发生的可能性就越低。机器学习

image

信息与可能状态数量、几率、文本长度、文本自己意义都有密切的关系,但从通讯角度来看,能够没必要关心文本自己的意义。为了对文本信息进行度量,首先须要肯定有多少个可能状态及其对应的几率,将每一个状态几率都与几率的对数相乘,而后累加全部项。获得的结果便是信息熵的大小,单位为比特。分布式

image

信息熵注意点

信息熵能够用来刻画系统携带信息的能力,也能够用来表示某个事物所携带的信息量。当使用信息熵来描述事物的信息量时,它缺少考虑冗余,好比重复的两句话并无带来两倍的信息量。还有顺序不一样的两句话虽然信息量相同,可是从语言层面上的意义并不是相同。学习

调和平常意义的信息与信息熵的办法是将信息熵视为文本所能包含的最大信息量。人工智能

-------------推荐阅读------------

个人开源项目汇总(机器&深度学习、NLP、网络IO、AIML、mysql协议、chatbot)

为何写《Tomcat内核设计剖析》

2018汇总数据结构算法篇

2018汇总机器学习篇

2018汇总Java深度篇

2018汇总天然语言处理篇

2018汇总深度学习篇

2018汇总JDK源码篇

2018汇总Java并发核心篇

2018汇总读书篇


欢迎关注:人工智能、读书与感想、聊聊数学、分布式、机器学习、深度学习、天然语言处理、算法与数据结构、Java深度、Tomcat内核等相关文章

相关文章
相关标签/搜索