基于互信息的词语搭配抽取

一、前言   互信息,是衡量两个变量X和Y的相关性,对于离散信息互信息的表示如下:   对于连续性变量的定义如下:   其中p(x,y)为联合概率分布函数,p(x)和p(y)为边缘概率分布函数;这里的log来自于信息理论,当取log后,就将一个概率转换为了信息量(要再乘以-1将其变为正数),以2为底时,可以简单理解为取多少个bits表示这个变量。 二、互信息与条件熵、联合熵的关系   熵的定义如下
相关文章
相关标签/搜索