机器学习算法总结之决策树

一、先了解熵的概念:         根据以上定义,经验熵是在训练集上有若干分类。条件熵则是用特征A的取值将训练集分类。         熵表示的是数据中包含的信息量大小。熵越小,数据的纯度越高,也就是说数据越趋于一致,这是我们希望的划分之后每个子节点的样子。        信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。也就是说,用属性a来划分训练集,得到的结果中纯度比较高。
相关文章
相关标签/搜索