信息熵、信息增益、信息增益比

信息熵 “信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|y|),则D的信息熵定义为: Ent(D)的值越小,则D的纯度越高。 如果上面的解释不容易理解,那么下面再通俗地解释一下: 首先来看一下信息熵这个公式在数轴上的表示: 可以看到,在概率为0.5的时候,信息熵是最大的,为1。 我们可以把信息熵理解为“不确定性”,当概率为0.5时,比
相关文章
相关标签/搜索