互信息(Mutual Information)

  本文根据如下参考资料进行整理:
 
 
  在几率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不一样于相关系数,互信息并不局限于实值随机变量,它更加通常且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的类似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息是点间互信息(PMI)的指望值。互信息最经常使用的单位是bit。

1.互信息的定义

  正式地,两个离散随机变量 X 和 Y 的互信息能够定义为:
  其中 p(x,y) 是 X 和 Y 的联合几率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘几率分布函数。
  在连续随机变量的情形下,求和被替换成了二重定积分
  其中 p(x,y) 当前是 X 和 Y 的联合几率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘几率密度函数。
  互信息量I(xi;yj)在联合几率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个肯定的量。若是对数以 2 为基底,互信息的单位是bit
  直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另外一个不肯定度减小的程度。例如,若是 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,因此它们的互信息为零。在另外一个极端,若是 X 是 Y 的一个肯定性函数,且 Y 也是 X 的一个肯定性函数,那么传递的全部信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。所以,在此情形互信息与 Y(或 X)单独包含的不肯定度相同,称做 Y(或 X)的。并且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个很是特殊的状况是当 X 和 Y 为相同随机变量时。)
  互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立状况下的联合分布之间的内在依赖性。因而互信息如下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),所以:
  此外,互信息是非负的(即 I(X;Y) ≥ 0; 见下文),并且是对称的(即 I(X;Y) = I(Y;X))。

2.平均互信息量的物理含义

(1)观察者站在输出端

  H(X/Y) —信道疑义度/损失熵.。Y关于X的后验不肯定度。表示收到变量Y后,对随机变量X仍然存在的不肯定度。表明了在信道中损失的信息。
  H(X) —X的先验不肯定度/无条件熵。
  I(X;Y)—收到Y先后关于X的不肯定度减小的量。从Y得到的关于X的平均信息量。

(2)观察者站在输入端

  H(Y/X)—噪声熵。表示发出随机变量X后, 对随机变量Y仍然存在的平均不肯定度。若是信道中不存在任何噪声, 发送端和接收端必存在肯定的对应关系, 发出X后必能肯定对应的Y, 而如今不能彻底肯定对应的Y, 这显然是由信道噪声所引发的。
  I(Y;X) —发出X先后关于Y的先验不肯定度减小的量。

(3)观察者站在通讯系统整体立场上

  H(XY)—联合熵.表示输入随机变量X, 经信道传输到达信宿, 输出随机变量Y。即收,发双方通讯后,整个系统仍然存在的不肯定度.
  I(X;Y) —通讯先后整个系统不肯定度减小量。在通讯前把X和Y当作两个相互独立的随机变量, 整个系统的先验不肯定度为X和Y的联合熵H(X)+H(Y); 通讯后把信道两端出现X和Y当作是由信道的传递统计特性联系起来的, 具备必定统计关联关系的两个随机变量, 这时整个系统的后验不肯定度由H(XY)描述。
  以上三种不一样的角度说明: 从一个事件得到另外一个事件的平均互信息须要消除不肯定度,一旦消除了不肯定度,就得到了信息。

3.平均互信息量的性质

(1)对称性

  I(X;Y)= I(Y;X)
  由Y提取到的关于X的信息量与从X中提取到的关于Y的信息量是同样的。 I(X;Y)和 I(Y;X)只是观察者的立足点不一样。

(2)非负性

  I(X;Y)≥0
  平均互信息量不是从两个具体消息出发, 而是从随机变量X和Y的总体角度出发, 并在平均意义上观察问题, 因此平均互信息量不会出现负值。或者说从一个事件提取关于另外一个事件的信息, 最坏的状况是0, 不会因为知道了一个事件,反而使另外一个事件的不肯定度增长。

(3)极值性

  I(X;Y)≤H(X)
  I(Y;X)≤H(Y)
  从一个事件提取关于另外一个事件的信息量, 至可能是另外一个事件的熵那么多, 不会超过另外一个事件自身所含的信息量。当X和Y是一一对应关系时: I(X;Y)=H(X), 这时H(X/Y)=0。从一个事件能够充分得到关于另外一个事件的信息, 从平均意义上来讲, 表明信源的信息量可所有经过信道。当X和Y相互独立时: H(X/Y) =H(X), I(Y;X)=0。 从一个事件不能获得另外一个事件的任何信息,这等效于信道中断的状况。

(4) 凸函数性

  平均互信息量是p(xi)和p(yj /xi)的函数,即I(X;Y)=f [p(xi), p(yj /xi)];
  若固定信道,调整信源, 则平均互信息量I(X;Y)是p(xi)的函数,即I(X;Y)=f [p(xi)];
  若固定信源,调整信道, 则平均互信息量I(X;Y)是p(yj /xi)的函数,即I(X;Y)=f [p (yj /xi)]。
  平均互信息量I(X;Y)是输入信源几率分布p(xi)的上凸函数(concave function; or convext cap function)。
  平均互信息量I(X;Y)是输入转移几率分布p(yj /xi)的下凸函数(convext function; or convext cup function)。

(5)数据处理定理

  串联信道:在一些实际通讯系统中, 经常出现串联信道。例如微波中继接力通讯就是一种串联信道。信宿收到数据后再进行数据处理, 数据处理系统可当作一种信道, 它与前面传输数据的信道构成串联信道。
  数据处理定理:当消息通过多级处理后,随着处理器数目的增多,输入消息与输出消息之间的平均互信息量趋于变小。即
  I(X;Z)≤I(X;Y)
  I(X;Z)≤I(Y;Z)
  其中假设Y条件下X和Z相互独立。
  两级串联信道输入与输出消息之间的平均互信息量既不会超过第Ⅰ级信道输入与输出消息之间的平均互信息量,也不会超过第Ⅱ级信道输入与输出消息之间的平均互信息量。
  当对信号/数据/消息进行多级处理时, 每处理一次, 就有可能损失一部分信息, 也就是说数据处理会把信号/数据/消息变成更有用的形式, 可是毫不会创造出新的信息。这就是所谓的信息不增原理。
  当已用某种方式取得Y后, 无论怎样对Y进行处理, 所得到的信息不会超过I(X;Y)。每处理一次, 只会使信息量减小, 至多不变。也就是说在任何信息流通系统中, 最后得到的信息量,至可能是信源提供的信息。一旦在某一过程当中丢失了一些信息, 之后的系统无论怎样处理, 若是不能接触到丢失信息的输入端, 就不能再恢复已丢失的信息。

4.与其余量的关系

  互信息又能够等价地表示成
  其中H(X)和H(Y) 是边缘,H(X|Y)和H(Y|X)是条件熵,而H(X,Y)是X和Y的联合熵。注意到这组关系和并集、差集和交集的关系相似,用Venn图表示:

  因而,在互信息定义的基础上使用琴生不等式,咱们能够证实 I(X;Y) 是非负的,所以H(X)>=H(X|Y),这里咱们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:
  上面其余性质的证实相似。
  直观地说,若是把熵 H(Y) 看做一个随机变量不肯定度的量度,那么 H(Y|X) 就是 X 没有涉及到的 Y 的部分的不肯定度的量度。这就是“在 X 已知以后 Y 的剩余不肯定度的量”,因而第一个等式的右边就能够读做“Y的不肯定度,减去在 X 已知以后 Y 的剩余不肯定度的量”,此式等价于“移除知道 X 后 Y 的不肯定度的量”。这证明了互信息的直观意义为知道其中一个变量提供的另外一个的信息量(即不肯定度的减小量)。
  注意到离散情形 H(X|X) = 0,因而 H(X) = I(X;X)。所以 I(X;X) ≥ I(X;Y),咱们能够制定”一个变量至少包含其余任何变量能够提供的与它有关的信息“的基本原理。
  互信息也能够表示为两个随机变量的边缘分布 X 和 Y 的乘积 p(x) × p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵
  此外,令 p(x|y) = p(x, y) / p(y)。则
  注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式 
  如今以 Y 为变量。因而互信息也能够理解为相对熵 X 的单变量分布 p(x) 相对于给定 Y 时 X 的条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差别越大,信息增益越大。
相关文章
相关标签/搜索