决策树概念梳理

时间 2020-07-21 标签决策树概念梳理

目录算法

决策树定义

决策树（Decision Tree）是一种简单且普遍使用的分类器，一种非参数的监督学习方法，即经过训练数据（训练集）来构建模型的决策规则，能够对未知的数据（测试集）进行决策分类。form

1. 开始，全部记录看做一个节点

2. 遍历每一个变量的每一种分割方式，找到最好的分割点（关键）

3. 分割成两个节点N1和N2

4. 对N1和N2分别继续执行2-3步，直到每一个节点足够“纯”为止

一个分割点能够将当前的全部节点分为两类，若是使得分类后的集合只有一种分类结果，则该集合纯，若是分类后的集合还有许多分类结果，则该集合不纯。

若是一个分割点能够将当前的全部节点分为两类，使得每一类都很纯，这就是一个好分割点。

通常很难找到这样的分割点使分割后每一类都很纯，因此构建决策树采用贪心算法，使分割后纯度差最大的状况做为分割点，那么须要对这个纯度差进行量化。

使用信息熵来衡量这种不肯定度（非纯度），熵越大，越不纯。

经常使用的信息熵1：熵（Entroty）

经常使用的信息熵2：基尼指数（Gini Index）

咱们但愿在分类之后可以下降熵的大小，使之变纯一些，这种分类后熵变小的断定标准能够用信息增益（Information Gain）来衡量，它表示两个信息熵的差值，信息增益越大越佳，区分样本的能力更强，选择信息增益最大的特征属性进行分类最佳。

信息增益公式为：g(D,A) = H(D) - H(D|A)

g(D,A)：样本D基于特征A分类后的信息增益

H(D)：样本D本来的信息熵

H(D|A) ：样本D基于特征A分类后的信息熵

问题：信息增益存在偏向于选择取值较多的特征（即分的类别交多的特征）的问题

改进：引入惩罚机制，对树分支过多的状况进行惩罚，来减小信息增益率失效的概率

信息增益比公式：

惩罚参数InstrinsicInfo计算公式：

1. ID3：在决策树生成过程当中，以信息增益为特征选择的准则。

缺点：ID3用信息增益做为标准，存在偏向于选择取值较多的特征的问题

2. C4.5：在决策树生成过程当中，以信息增益比为特征选择的准则。

改进：相比信息增益，信息增益比引入惩罚机制，对树分支过多的状况进行惩罚，偏向于取值较少的特征

3. CART：对回归树用平方偏差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。