这是决策树中经典的问题了,信息增益一般用来划分特征的时候用到,久了可能都有些忘记了ide
定义:以某特征划分数据集先后的熵的差值。 熵能够表示样本集合的不肯定性,熵越大,样本的不肯定性就越大。所以能够使用划分先后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D,计算划分后的数据子集的熵为H(D|A)。
则信息增益为:
注:在决策树构建的过程当中咱们老是但愿集合往最快到达纯度更高的子集合方向发展,所以咱们老是选择使得信息增益最大的特征来划分当前数据集D。
思想:计算全部特征划分数据集D,获得多个特征划分数据集D的信息增益,从这些信息增益中选择最大的,于是当前结点的划分特征即是使信息增益最大的划分所使用的特征。
另外这里提一下信息增益比相关知识:
信
息
增
益
比
惩
罚
参
数
信
息
增
益.net
信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。
惩罚参数:数据集D以特征A做为随机变量的熵的倒数。
参考:
[1] https://blog.csdn.net/Rosalind_Xu/article/details/88582694
喜欢就关注一下啦~~~blog