生信自学笔记(十一):熵与信息量

在信息论中,熵(entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息” 代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。由于一些其他的原因,把信息(熵)定义为概率分布的对数的相反数是有道理的。


如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个——正面或者反面,可以表示为 0, 1 编码,而且两个结果彼此之间相互独立。若进行 n 次独立实验,则熵为 n,因为可以用长度为 n 的比特流表示。但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。


另一个稍微复杂的例子是假设一个随机变量 X,取三种可能值 x 1 , x 2 , x 3 ,概率分别为 1 2 , 1 4 , 1 4 ,那么编码平均比特长度是: 1 2 × 1 + 1 4 × 2 + 1 4 × 2 = 3 2 。其熵为 3/2。


熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望。在生物信息学中,可以把熵看作是不确定性

——如何从直观上判断信息量?
——一条消息的信息量越大,其不确定性就越小。

——如何衡量不确定性?
——可以用必须提问的次数来衡量。比如说,”我写了一本小说”的不确定性就比 “我花三个月写了一本十万字的记录我大学生活的小说” 要大得多,相应的,信息量就小得多。

——如何估计不确定性?
—— H = l o g N = l o g P , H 为不确定性,N 为不同事件可能发生的总数,P 为事件发生的概率。一个字母的不确定性是 l o g 2 26 = 4.7 ,汉字为 l o g 2 2500 = 11.3 ,可见单个汉字的不确定性更大。

——如何计算不确定性?
——香农将不同事件发生的概率作为权重,重新定义了不确定性,即香农信息熵。
H = p i l o g 2 p i p i i

——如何估计计分矩阵的信息量?
——一般来说,PSSM 特定列各个氨基酸或碱基构成不确定性的平均数由下式给出
H c = p i c l o g 2 p i c p i c c i H c c P S S M H c
H 可以称之为 PSSM 的信息熵。H 越小,不确定性越小,矩阵的性能越好。
那么如何通过信息熵获取信息量呢?一个计算公式是:IC = H 理论上的最大值 - H
比如说对于核苷酸序列,H 最大为 l o g 2 4 = 2 , I C = 2 H
对于氨基酸序列, I C = l o g 2 20 H = 4.32 H

这里写图片描述