信息量_熵_条件熵_相对熵_交叉熵_互信息_信息增益_信息增益比

时间 2019-11-06

标签信息量条件相对交叉互信信息增益繁體版

原文原文链接

python机器学习-乳腺癌细胞挖掘（博主亲自录制视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

转载： https://blog.csdn.net/xg123321123/article/details/52864830

熵与信息增益

在决策树算法中，决定特征优先级时，须要用到熵的概念，先挖个坑python

1 信息量

信息量是用来衡量一个事件的不肯定性的；一个事件发生的几率越大，不肯定性越小，则它所携带的信息量就越小。算法

假设X是一个离散型随机变量，其取值集合为 $X$ markdown

I (x 0) = - l o g (p (x 0))

当

p (x_{0}) = 1

举个例子，小明考试常常不及格，而小王则常常得满分，因此咱们能够作以下假设：
事件A：小明考试及格
几率为机器学习

P (x A) = 0.1

p (x_{0}) = 1

I (x A) = - l o g (0.1) = 3.3219

p (x_{0}) = 1

P (x B) = 0.999

p (x_{0}) = 1

I (x B) = - l o g (0.999) = 0.0014

p (x_{0}) = 1

这跟《黑天鹅》一书中强调的“黑天鹅事件每每有重大影响”有殊途同归之妙。ide

2 熵

熵是用来衡量一个系统的混乱程度的，表明一个系统中信息量的总和；信息量总和越大，代表这个系统不肯定性就越大。函数

假设小明的考试结果是一个0-1分布 $X_{A}$ 学习

在上面章节，咱们能够分别获得小明和小王考试及格对应的信息量。
而若是咱们想要进一步度量小明考试结果的不肯定度，就要借助于熵的概念。编码

信息量用来衡量一个事件的不肯定度，熵则用来衡量一个系统（也就是全部事件）的不肯定度。atom

那如何度量系统中全部事件的不肯定度？指望。spa

咱们对全部可能事件所带来的信息量求指望，其结果就能衡量小明考试的不肯定度：

H A (x) = - [p (x A) l o g (p (x A)) + (1 - p (x A)) l o g (1 - p (x

与之对应地，小王的熵：

H B (x) = - [p (x B) l o g (p (x B)) + (1 - p (x B)) l o g (1 - p (x

p (x_{0}) = 1

再假设一个成绩相对普通的学生小东，他及格的几率是 $P (x_{C}) = 0.5$

H C (x) = - [p (x C) l o g (p (x C)) + (1 - p (x C)) l o g (1 - p (x

小东考试结果的不肯定度比前边两位同窗要高不少，在成绩公布以前，很难准确猜想出他的考试结果。

从上面能够看出，熵是信息量的指望值，它是一个随机变量的肯定性的度量。
熵越大，变量的取值越不肯定；反之，熵越小，变量取值就越肯定。

对于一个随机变量X，它全部可能取值的信息量的指望 $E [I (x)]$

H (X) = E p log 1 p ( x ) = - \sum x \in X p ( x ) log p ( x )

p (x_{0}) = 1

H (X) = - \int x \in X p (x) log p (x) d x

p (x_{0}) = 1

假如X为0-1分布，当两种取值的可能性相等时（p=0.5），不肯定度最大（此时没有任何先验知识）；当p=0或1时，熵为0，即此时X彻底肯定。
熵与几率p的关系以下图：

注：熵的单位随着公式中log运算的底数而变化，当底数为2时，单位为“比特”(bit)，底数为e时，单位为“奈特”。

3 条件熵

在随机变量X发生的前提下，随机变量Y发生所新带来的熵定义为Y的条件熵，用 $H (Y | X)$

若是这样说显得空洞，那么能够进行转换:

H (Y | X) = H (X, Y) - H (X)

p (x_{0}) = 1

4 相对熵

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence)，KL距离，是两个随机分布间距离的度量。
记为 $D_{K L} (p | | q)$

D K L (p | | q) = E p [l o g p ( x ) q ( x ) ] = \sum x \in χ

p (x_{0}) = 1

= \sum x \in χ [p (x) l o g p (x) - p (x) l o g q (x)]

p (x_{0}) = 1

= \sum x \in χ p (x) l o g p (x) - \sum x \in χ p (x) l o g q (x)

p (x_{0}) = 1

= - H (p) - \sum x \in χ p (x) l o g q (x)

p (x_{0}) = 1

= - H (p) + E p [- l o g q (x)]

p (x_{0}) = 1

= H p (q) - H (p)

而且为了保证连续性，作以下约定：
$0 l o g \frac{0}{0} = 0 ， 0 l o g \frac{0}{q} = 0 ， p l o g \frac{p}{0} = \infty$

5 交叉熵

交叉熵容易跟相对熵搞混，两者有所区别。
假设有两个分布p，q，它们在给定样本集上的交叉熵定义以下：

C E H (p, q) = E p [- l o g q] = - \sum x \in χ p (x) l o g q (x) = H (p) +

p (x_{0}) = 1

在logistic regression中，
p:真实样本分布，服从参数为p的0-1分布，即X∼B(1,p)
q:待估计的模型，服从参数为q的0-1分布，即X∼B(1,q)
二者的交叉熵为：

C E H (p, q) = - \sum x \in χ p (x) l o g q (x)

p (x_{0}) = 1

= - [P p (x = 1) l o g P q (x = 1) + P p (x = 0) l o g P q (x = 0)]

p (x_{0}) = 1

= - [p l o g q + (1 - p) l o g (1 - q)]

p (x_{0}) = 1

= - [y l o g h θ (x) + (1 - y) l o g (1 - h θ (x))]

p (x_{0}) = 1

- 1 m \sum i m = 1 m [ y ( i ) l o g h θ ( x ( i ) ) + ( 1 - y ( i

p (x_{0}) = 1

6 信息增益

在决策树ID3算法中，使用信息增益来选择最佳的特征做为决策点。

信息增益表示得知特征X的信息而使得类Y的信息不肯定性减小的程度，即用来衡量特征X区分数据集的能力。
当新增一个属性X时，信息熵 $H (Y)$

I (Y | X) = H (Y) - H (Y | X)

7 互信息

两个随机变量X，Y的互信息定义为X，Y的联合分布和各自独立分布乘积的相对熵，用I(X,Y)表示：

而通常来讲，熵 $H (Y)$

因此在决策树算法中，信息增益等价于训练数据集中类和特征的互信息。

8

在决策树C4.5算法中，使用信息增益比来选择最佳的特征做为决策点。

特征A对训练数据集D的信息增益比 $g_{R} (D | A)$

g R (D | A) = I ( D | A ) H A ( D )

这之中

H A (D) = - \sum i = 1 n | D i | | D | l o g 2 |

本篇博客主要参考自：
《信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息》
《交叉熵（Cross-Entropy）》
《最大熵模型中的数学推导》
《咱们为何须要信息增益比，而不是信息增益？》

python信用评分卡建模（附代码，博主录制）

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share