决策树概念梳理

目录算法

决策树定义学习

决策树构建基本步骤测试

为何找到最好的分割点是关键spa

如何量化纯度3d

信息熵orm

信息增益blog

信息增益比ci

决策树算法io


决策树定义

决策树(Decision Tree)是一种简单且普遍使用的分类器,一种非参数的监督学习方法,即经过训练数据(训练集)来构建模型的决策规则,能够对未知的数据(测试集)进行决策分类。form

 

决策树构建基本步骤

1. 开始,全部记录看做一个节点

2. 遍历每一个变量的每一种分割方式,找到最好的分割点(关键)

3. 分割成两个节点N1和N2

4. 对N1和N2分别继续执行2-3步,直到每一个节点足够“纯”为止

 

为何找到最好的分割点是关键

一个分割点能够将当前的全部节点分为两类,若是使得分类后的集合只有一种分类结果,则该集合纯,若是分类后的集合还有许多分类结果,则该集合不纯。

若是一个分割点能够将当前的全部节点分为两类,使得每一类都很纯,这就是一个好分割点。

通常很难找到这样的分割点使分割后每一类都很纯,因此构建决策树采用贪心算法,使分割后纯度差最大的状况做为分割点,那么须要对这个纯度差进行量化。

 

如何量化纯度

信息熵

使用信息熵来衡量这种不肯定度(非纯度),熵越大,越不纯

经常使用的信息熵1:熵(Entroty)

 

经常使用的信息熵2:基尼指数(Gini Index)

 

信息增益(偏向于取值较多的特征)

咱们但愿在分类之后可以下降熵的大小,使之变纯一些,这种分类后熵变小的断定标准能够用信息增益(Information Gain)来衡量,它表示两个信息熵的差值,信息增益越大越佳,区分样本的能力更强,选择信息增益最大的特征属性进行分类最佳。

信息增益公式为:g(D,A) = H(D) - H(D|A) 

g(D,A):样本D基于特征A分类后的信息增益

H(D):样本D本来的信息熵

H(D|A) :样本D基于特征A分类后的信息熵

 

信息增益比(偏向于取值较少的特征)

问题:信息增益存在偏向于选择取值较多的特征(即分的类别交多的特征)的问题

改进:引入惩罚机制,对树分支过多的状况进行惩罚,来减小信息增益率失效的概率

信息增益比公式:

 

惩罚参数InstrinsicInfo计算公式:

 

决策树算法(算法之间特征选择的标准不一样)

1. ID3:在决策树生成过程当中,以信息增益为特征选择的准则。

缺点:ID3用信息增益做为标准,存在偏向于选择取值较多的特征的问题

2. C4.5:在决策树生成过程当中,以信息增益比为特征选择的准则。

        改进:相比信息增益,信息增益比引入惩罚机制,对树分支过多的状况进行惩罚,偏向于取值较少的特征

3. CART:对回归树用平方偏差最小化准则,对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树