信息量

表示话题的惊爆程度,越冷门信息量越大,计算公式是I(x0)=−log(p(x0))p(x0)在介绍贝叶斯的曾经出现过,代表的是x0出现的概率。可以从公式中看得出x0出现的概率越大,I(x0)越小,p趋于1I趋于0;反之p趋于0I趋于无限大。

log的线性图:

例如中国乒乓球获得世界冠军,因为概率太大了,不会引起大家的注意,所以信息量就很小。但是国足勇得世界杯!会震惊整个世界,那个信息量可就爆炸了。

总结:信息量代表的是冷门程度,就像赌球的赔率,概率越小,赔率越高。

 

熵(entropy

所有可能结果的信息量的总和组成熵。H(X)=Eplog1p(x)=−∑xXp(x)logp(x)

举个例子:现在世界杯已经进行到冠亚军的最后阶段了,中国队奇迹般的站在了最终决赛的赛场上与德国队争夺大力神杯。尽管中国队获胜的概率是1%,德国队获胜的概率是99%,但是中国队和德国队的熵是一样的!

H(中国队)=-[p(赢球)*logp(赢球)]- [p(输球)*logp(输球)]=-(o.o1*log0.01)-(0.99*log0.99)

H(德国队)=-[p(赢球)*logp(赢球)]- [p(输球)*logp(输球)]=-(o.99*log0.99)-(0.01*log0.01)

那么熵到底有什么意义呢?我们现在极端点吧,就认为国足铁定赢不了德国队了,p(德国赢)=100%,那么熵H(德国队)=-[p(赢球)*logp(赢球)]- [p(输球)*logp(赢球)]=0

假如现在换成西班牙队跟德国队踢决赛了,双方实力相当,各50%胜率,那么熵H(德国队)=-[p(赢球)*logp(赢球)]- [p(输球)*logp(赢球)]=-(0.5*log0.5)-(0.5*log0.5)=1

OK,看到这里应该算明白了吧,熵的代表的是期望的稳定性,反过来说也可以代表不确定性,值越小表示期望越稳定,值越大表示不确定性越高。熵为0时表示已经板上钉钉盖棺定论了,熵越大标识变数越大,结果越难预测。

 

 

相对熵(relative entropy)又称为KL散度(Kullback-Leiblerdivergence

相对熵不太好解释,我们先直接看下公式吧。


D(p||q)就是用q去拟合p计算出的差别,代表了概率分布q与目标概率分布p之间的拟合度,D越小,拟合度越高;如果完全匹配那么D0.

可能通过文字的描述还不是很容易理解,我们搬来百度中的案例直观的了解下:

现在有3种概率的分布


现在我们要看BC,哪一个更适合用来拟合A

从结果看得出D(A||B)D(A||C)要小,所以BA的拟合度比CA的拟合度要高。

PSD(A||B)!=D(B||A),自己可以算一下。

 

 

交叉熵(Cross Entropy

可以从公式中看到区别是从logp(x)/q(x)换成了logq(x),结果比相对熵多了一个常量H(p)。从结果中基本可以这么理解:交叉熵=+相对熵,拟合度越高相对熵越小,交叉熵也越小,完美拟合的条件下交叉熵就等于熵。

 

对于0-1分布交叉熵的结果需要掌握: