熵 互信息 Gini指数 和 不纯度

在学习决策树类的算法时,老是绕不开 信息熵、Gini指数和它们相关联的概念,概念不清楚,就很难理解决策树的构造过程,如今把这些概念捋一捋。算法

信息熵

信息熵,简称熵,用来衡量随机变量的不肯定性大小,熵越大,说明随机变量的不肯定性越大。计算公式以下:函数

考虑二元分布的状况,当取2为对数底时,能够获得以下的函数曲线。能够看到,当p=0.5时,不肯定性最大,熵的值是1,也最大,当p=0或1时,没有不肯定性,熵的值最小,是0。学习

 

条件熵

咱们在分析某个特征对随机变量的影响时,须要计算条件熵,即随机变量Y的信息熵相对特征X的条件指望,公式以下:spa

互信息

互信息,也叫信息增益,是熵和条件熵的差值,g(Y,X) = H(Y) - H(Y|X)。blog

信息增益的含义是,某一个特征会使得随机变量的不肯定性降低多少。降低的越多,说明这个特征与标签的相关性越强,分类效果天然越好。在构造决策树时,经常使用的作法是选择信息增益更大的特征构造分支。it

另外,在构造决策树时,信息增益有两种算法,一是差值(ID3),二是比值(C4.5),比值是差值与特征的信息熵的比例,公式以下所示:变量

比值比差值能更准确的反应不肯定性变化的程度,缘由是,若是按差值选取节点,那些取值数量更多的特征老是会排在前面,在比值的计算公式中,分母能够度量特征的取值数量,至关于对各个特征作了归一化,因此不会出现,特征取值数量多,信息增益必定更大的状况。im

 

Gini指数

Gini指数和熵相似,都是衡量随机变量不肯定程度的,计算公式是:数据

Gini指数有一个比较直观的解释:从样本中任意挑选两个,两个样本属于不一样类别的几率就是Gini指数。从Gini指数的定义和解释就能够发现,它和熵和相似,不肯定性越大,Gini指数和熵也越大。不一样点在于Gini指数的最大值是0.5,不是1。把Gini指数公式和信息熵公式都变换成求和的形式,能够发现两者只相差一个乘积项,Gini指数是 1-p,信息熵是-log(p),就是这么一点点差异。img

Gini指数的另外一种说法是不纯度(impurity),Gini指数越大,不肯定性越大,数据越混乱,不纯度越高。

 

笔者没研究过信息熵和Gini指数的发迹史,但能够猜想,Gini指数和信息熵极可能是不一样领域的研究者分别创建的评价不肯定性的指标,从含义上看,两者异曲同工。在实际使用时,每每用Gini指数来构造CART。

相关文章
相关标签/搜索