决策树——连续值处理

思想: 选择合适的值做为阈值,实现最佳二分,遍历所有连续属性值后,计算所有已当前Gini()系数大小,选择最大的 例子, 来看看到底是怎样划分的。给定数据集如下(数据集来自周志华《机器学习》 对于数据集中的属性“密度”,决策树开始学习时,根节点包含的17个训练样本在该属性上取值均不同。我们先把“密度”这些值从小到大排序: 根据上面计算 的公式,可得: 下面开始计算t 取不同值时的信息增益:
相关文章
相关标签/搜索