CART(Classification And Regression Tree)算法原理详解

1. Gini指数 CART决策树是用”吉尼指数”来选择属性划分。数据集D的纯度可用基尼值来度量: Gini(D)=∑k=1n∑k′≠kpkpk′=1−∑k=1np2k 直观来说, Gini(D) 反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此 Gini(D) 越小,数据集D纯度越高。因此属性 α 的基尼指数定义为: Gini(D,α)=∑v=1V|Dv||D|Gini(Dv)
相关文章
相关标签/搜索