熵是随机变量不肯定性的度量,不肯定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不肯定”的分布html
假设离散随机变量X的几率分布为P(x),则其熵为:算法
联合熵和条件熵函数
两个随机变量的X,Y的联合分布,能够造成联合熵,用H(X,Y)表示工具
条件熵H(X|Y) = H(X,Y) - H(Y)post
相对熵与互信息学习
设p(x),q(x)是X中取值的两个几率分布,则p对q的相对熵是:优化
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。翻译
最大熵原理是统计学的通常原理,也是几率模型学习的一个准则。最大熵原理认为,学习几率模型时,在全部可能的几率模型中,熵最大的模型是最好的模型。3d
2.最大熵模型
2.1最大熵模型的实例(参考[1])
在英汉翻译中,take有多种解释例如上文中存在7中,在没有任何限制的条件下,最大熵原理认为翻译成任何一种解释都是等几率的。htm
实际中总有或多的限制条件,例如t1,t2比较常见,假设知足
一样根据最大熵原理,能够得出:
实际的统计模型中,还须要引入特征提升准确率。例如take翻译为乘坐的几率小,可是当后面跟着交通工具的名词“bus",几率就变得很是大。
用特征函数f(x,y)描述输入x,输出y之间的某一个事实,只有0和1两种值,称为二值函数。例如:
最大熵模型根据最大熵原理在相似上面的特征限制下选择最优的几率分布。
2.2 最大熵模型的数学推导(参考[2])
对于给定的训练数据集T={(x1,y1),(x2,y2),(x3,y3)...(xn,yn)}以及特征函数fi(x,y),i=1,2,3...n,最大熵模型的学习等价于约束的最优化问题:
引入朗格朗日算子W,定义拉格朗日函数L(P,w)
最优化的原始问题:
对偶问题是:
因为L(P,W)是P的凸函数,原始问题的解与对偶问题的解是等价的。这里经过求对偶问题的解来求原始问题的解。
第一步求解内部极小化问题,记为:
经过微分求导,得出P的解是:
第二步求外部的极大化问题:
最后的解记为:
第三步能够证实对偶函数的极大化等价于第一步求解出的P的极大似然估计,因此将最大熵模型写成更通常的形式.
2.3 最大熵模型学习算法
由模型的数学推导2.2知道,最大熵模型的学习最终能够归结为以最大熵模型似然函数为目标函数的优化问题。这时的目标函数是凸函数,所以有不少种方法都能保证找到全局最优解。例如改进的迭代尺度法(IIS),梯度降低法,牛顿法或拟牛顿法,牛顿法或拟牛顿法通常收敛比较快。
《统计学习方法》中有很是详细的使用IIS优化目标函数的过程。
算法的推导比较麻烦,但思路是清晰的:
References:
[2]《统计学习方法》.李航
[3]一文搞懂最大似然估计