决策树的样子大概是这个样子的:
3d
选择一个特征做为根节点,把这个特征划分红两个孩子节点,每一个孩子节点就是原始数据集的子集,而后再找一个特征做为划分……orm
划分的好坏,如图所示:
blog
用纯度Purity来衡量划分的效果,若是划分的好,那么每个子集都是某一类占据大多数,若是每个子集都是跟父节点同样的状态,那么就是Low purity。图片
一个好的划分要知足下面两个特色:ci
决策树的终止条件:it
有不一样的衡量purity的方法,不一样的衡量方法会致使不一样的分裂。io
GINI系数的计算方法:form
能够看出来,GINI系数是类别的几率乘上类别的几率,而熵是类别的几率呈上类别几率的logarithmclass
看一下Entropy的计算方法:
方法