关于决策树的信息增益(信息熵)

1.前言 决策树学习的关键是如何选择最优划分属性,一般而言,随着划分过程的不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一个类别,即结点的‘纯度’(purity)越来越高。所以我们引入信息熵的概念,来度量样本集合的纯度。 2.信息增益 3.增益率 在上面的介绍中,我们有意忽略了表4.1中的‘编号’一栏,若把‘编号’也作为一个候选划分属性,则根据公式计算出它的信息增益为0.998,远大于
相关文章
相关标签/搜索