《西瓜书》笔记04:决策树

1. 决策树的划分选择 决策树学习的关键是:如何确定最优划分属性。 我们希望,决策树划分过程中,分支结点所包含的样本尽可能同属一类。即结点的纯度越来越高。分支结点的纯度越高,则熵越小。 对于信息增益,定义为:分支前的熵-分支后的熵。分支后纯度越高,熵越小,减数越小,则差值越大。即信息增益越大,表明分支越好。 对于信息增益率,除以该属性取值的分布熵。也是越大越好。 信息增益,对可取值数目较多的属性有
相关文章
相关标签/搜索