信息量,熵,交叉熵,相对熵与代价函数

本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系。转载请保留原文连接:http://www.cnblogs.com/llhthinker/p/7287029.htmlhtml

1. 信息量

信息的量化计算:算法

解释以下:机器学习

信息量的大小应该能够衡量事件发生的“惊讶程度”或不肯定性:函数

若是有⼈告诉咱们⼀个至关不可能的事件发⽣了,咱们收到的信息要多于咱们被告知某个极可能发⽣的事件发⽣时收到的信息。若是咱们知道某件事情⼀定会发⽣,那么咱们就不会接收到信息。 也就是说,信息量应该连续依赖于事件发生的几率分布p(x) 。所以咱们想要寻找⼀个基于几率p(x)计算信息量的函数h(x),它应该具备以下性质:学习

  1. h(x) >= 0,由于信息量表示获得多少信息,不该该为负数。
  2. h(x, y) = h(x) + h(y),也就是说,对于两个不相关事件x和y,咱们观察到两个事件x, y同时发⽣时得到的信息应该等于观察到事件各⾃发⽣时得到的信息之和;
  3. h(x)是关于p(x)的单调递减函数,也就是说,事件x越容易发生(几率p(x)越大),信息量h(x)越小。

又由于若是两个不相关事件是统计独⽴的,则有p(x, y) = p(x)p(y)。根据不相关事件几率可乘、信息量可加,很容易想到对数函数,看出h(x)⼀定与p(x)的对数有关。所以,有优化

知足上述性质。编码

2. 熵(信息熵)

对于一个随机变量X而言,它的全部可能取值的信息量的指望就称为熵。熵的本质的另外一种解释:最短平均编码长度(对于离散变量spa

离散变量:.net

连续变量:htm

3. 交叉熵

现有关于样本集的2个几率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的熵,即基于分布p给样本进行编码的最短平均编码长度为:

若是使用非真实分布q来给样本进行编码,则是基于分布q的信息量的指望(最短平均编码长度),因为用q来编码的样原本自分布p,因此指望与真实分布一致。因此基于分布q的最短平均编码长度为:

 上式CEH(p, q)即为交叉熵的定义。

4. 相对熵

将由q获得的平均编码长度比由p获得的平均编码长度多出的bit数,即便用非真实分布q计算出的样本的熵(交叉熵),与使用真实分布p计算出的样本的熵的差值,称为相对熵,又称KL散度

KL(p, q) = CEH(p, q) - H(p)=

 

相对熵(KL散度)用于衡量两个几率分布p和q的差别。注意,KL(p, q)意味着将分布p做为真实分布,q做为非真实分布,所以KL(p, q) != KL(q, p)。

5. 机器学习中的代价函数与交叉熵

p(x) 是数据的真实几率分布, q(x) 是由数据计算获得的几率分布。机器学习的目的就是但愿 q(x)尽量地逼近甚至等于 p(x) ,从而使得相对熵接近最小值0. 因为真实的几率分布是固定的,相对熵公式的后半部分(-H(p)) 就成了一个常数。那么相对熵达到最小值的时候,也意味着交叉熵达到了最小值。对 q(x) 的优化就等效于求交叉熵的最小值。另外,对交叉熵求最小值,也等效于求最大似然估计(maximum likelihood estimation)。
特别的,在logistic regression中, 
p:真实样本分布,服从参数为p的0-1分布,即 XB(1,p) 
p(x = 1) = y
p(x = 0) = 1 - y
q:待估计的模型,服从参数为q的0-1分布,即XB(1,q) 
p(x = 1) = h(x)
p(x = 0) = 1-h(x)
其中h(x)为logistic regression的假设函数。
二者的交叉熵为: 

对全部训练样本取均值得: 
这个结果与经过最大似然估计方法求出来的结果一致。使用最大似然估计方法参加博客 Logistic Regression. 

 

Ref:

《模式识别与机器学习》1.6节

http://blog.csdn.net/rtygbwwwerr/article/details/50778098

https://www.zhihu.com/question/41252833

相关文章
相关标签/搜索