数据挖掘十大算法之决策树详解（1）

时间 2019-12-19

标签数据挖掘十大算法决策树详解繁體版

原文原文链接

在2006年12月召开的 IEEE 数据挖掘国际会议上（ICDM， International Conference on Data Mining），与会的各位专家选出了当时的十大数据挖掘算法（ top 10 data mining algorithms ），能够参见文献【1】。本博客已经介绍过的位列十大算法之中的算法包括：node

本文主要介绍机器学习中的决策树模型。决策树模型是一类算法的集合，在数据挖掘十大算法中，具体的决策树算法占有两席位置，即C4.5和CART算法，本文都会介绍到它们。算法

欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji，为保证公式、图表得以正确显示，强烈建议你从该地址上查看原版博文。本博客主要关注方向包括：数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、天然语言处理。数据结构

从分类问题开始

分类（Classification）任务就是肯定对象属于哪一个预约义的目标类。分类问题不只是一个广泛存在的问题，并且是其余更加复杂的决策问题的基础，更是机器学习和数据挖掘技术中最庞大的一类算法家族。咱们前面介绍过的不少算法（例如SVM，朴素贝叶斯等）均可以用来解决分类问题。做为本文的开始，咱们首先来简单回顾一下什么是分类。dom

假设咱们如今有以下表所示的一个属性集（feature set），它收集了几个病患的症状和对应的病症。症状包括头疼的程度、咳嗽的程度、体温以及咽喉是否肿痛，这些症状（feature）的组合就对应一个病症的分类（Cold 仍是 Flu）。机器学习

分类问题的本质就是当给定这样一个数据集后，要求咱们训练出（或创建）一个模型学习

分类问题的类别数目能够是两类也能够是多类。二分类问题是最简单的分类问题，而多分类问题模型能够在二分类模型的基础上进行构建。咱们在前面文章中一直使用的鸢尾花数据集就是一个典型的多分类问题，问题的最终目标是判断给定一朵花，它应该属于setosa、versicolor和virginica中的哪一类。测试

决策树基础

决策树是一种用于对实例进行分类的树形结构。决策树由节点（node）和有向边（directed edge）组成。节点的类型有两种：内部节点和叶子节点。其中，内部节点表示一个特征或属性的测试条件（用于分开具备不一样特性的记录），叶子节点表示一个分类。大数据

一旦咱们构造了一个决策树模型，以它为基础来进行分类将是很是容易的。具体作法是，从根节点开始，地实例的某一特征进行测试，根据测试结构将实例分配到其子节点（也就是选择适当的分支）；沿着该分支可能达到叶子节点或者到达另外一个内部节点时，那么就使用新的测试条件递归执行下去，直到抵达一个叶子节点。当到达叶子节点时，咱们便获得了最终的分类结果。优化

下图是一个决策树的示例（注意咱们仅用了两个feature就对数据集中的5个记录实现了准确的分类）： ui

构建决策树——Hunt算法

Hunt算法是一种采用局部最优策略的决策树构建算法，它同时也是许多决策树算法的基础，包括ID三、C4.5和CART等。该算法的具体执行步骤以下：

在Hunt算法中，经过将训练记录相继划分红较纯的子集，以递归方式创建决策树。设

为了演示这方法，咱们选用文献【2】中的一个例子来加以说明：预测贷款申请者是会按时归还贷款，仍是会拖欠贷款。对于这个问题，训练数据集能够经过考察之前贷款者的贷款记录来构造。在下图所示的例子中，每条记录都包含贷款者的我的信息，以及贷款者是否拖欠贷款的类标号。

该分类问题的初始决策树只有一个结点，类标号为“拖欠货款者＝否”（见图a），意味大多数贷款者都按时归还贷款。然而，该树须要进一步的细化，由于根结点包含两个类的记录。根据“有房者”测试条件，这些记录被划分为较小的子集，如图b所示。接下来，对根结点的每一个子女递归地调用Hunt算法。从下图给出的训练数据集能够看出，有房的贷款者都按时偿还了贷款，所以，根结点的左子女为叶结点，标记为“拖欠货款者二否”（见图b)。对于右子女，咱们须要继续递归调用Hunt算法，直到全部的记录都属于同一个类为止。每次递归调用所造成的决策树显示在图c和图d中。

若是属性值的每种组合都在训练数据中出现，而且每种组合都具备惟一的类标号，则Hunt 算法是有效的。可是对于大多数实际状况，这些假设太苛刻了，所以，须要附加的条件来处理如下的状况：

算法的第二步所建立的子女结点可能为空，即不存在与这些结点相关联的记录。若是没有一个训练记录包含与这样的结点相关联的属性值组合，这种情形就可能发生。这时，该结点成为叶结点，类标号为其父结点上训练记录中的多数类。
在第二步，若是与

此外，在上面这个算法过程当中，你可能会疑惑：咱们是依据什么原则来选取属性测试条件的，例如为什第一次选择“有房者”来做为测试条件。事实上，若是咱们选择的属性测试条件不一样，那么对于同一数据集来讲所创建的决策树可能相差很大。以下图所示为基于前面预测病人是患了Cold仍是Flu的数据集所构建出来的另外两种状况的决策树：

事实上，在构建决策树时咱们须要关心的问题包括：

How to build optimal Decision Tree?
How to choose attribute values at each decision point (node)?
How to choose number of branches at each node and attribute values for partitioning the data?
When to stop the growth of the tree?

我会在接下来的部分回答上述这些问题。

构建决策树进阶：

构建一棵最优的决策树是一个NP难问题！因此咱们只能采用一些启发式策略来解决：

Choose an attribute to partition the data at the node such that each partition is as homogeneous (least impure) as possible. This means we would like to see most of the instances in each partition belonging to as few classes as possible and each partition should be as large as possible.
We can stop the growth of the tree if all the leaf nodes are largely dominated by a single class (that is the leaf nodes are nearly pure).

如今新的问题来了：如何评估节点的Impurity？一般可使用的指标有以下三个（实际应用时，只要选其中一个便可）：

Gini Index
Entropy
Misclassification error

第一个能够用来评估节点Impurity的指标是Gini系数。对于一个给定的节点

G I N I (t) = 1 - \sum j [p (j | t)] 2

其中，

Maximum value of Gini index = (1 - 1/
Minimum is (0.0) when all records belong to one class, implying most interesting information or most pure or most homogeneous.

说到这里，咱们插一句题外话（若是你对这部分Background无感能够跳过）。你在生活中有没有听过基尼系数这个名词？是的，基尼系数原本是经济学里的一个概念。基尼系数是1943年美国经济学家阿尔伯特·赫希曼根据劳伦茨曲线所定义的判断收入分配公平程度的指标。基尼系数是比例数值，在0和1之间，是国际上用来综合考察居民内部收入分配差别情况的一个重要分析指标。其具体含义是指，在所有居民收入中，用于进行不平均分配的那部分收入所占的比例。基尼系数最大为“1”，最小等于“0”。前者表示居民之间的收入分配绝对不平均，即100%的收入被一个单位的人所有占有了；然后者则表示居民之间的收入分配绝对平均，即人与人之间收入彻底平等，没有任何差别。但这两种状况只是在理论上的绝对化形式，在实际生活中通常不会出现。所以，基尼系数的实际数值只能介于0～1之间，基尼系数越小收入分配越平均，基尼系数越大收入分配越不平均。国际上一般把0.4做为贫富差距的警惕线，大于这一数值容易出现社会动荡。

选择最佳划分的度量一般是根据划分后子女结点不纯性的程度。不纯的程度越低，类分布就越倾斜。例如，类分布为 (0, 1)的结点具备零不纯性，而均衡分布(0.5, 0.5)的结点具备最高的不纯性。如今咱们回过头来看一个具体的计算例子。如今咱们一共有6个records，以二元分类问题不纯性度量值的比较为例，下图的意思表示有四个节点，而后分别计算了每个节点的GINI系数值（注意决策树中每个内节点都表示一种分支判断，也就能够将6个records分红几类，咱们这里讨论的是二元分类因此是分红两个子类）：

Δ = I (p a r e n t) - \sum j = 1 k N ( v j ) N I ( v j )

考虑下面这个划分的例子。假设有两种方法将数据划分红较小的子集。划分前，Gini系数等于0.5，由于属于两个类（C0和C1）的记录个数相等。若是选择属性A来划分数据，节点

考虑多分类的状况

标称属性能够产生二元划分也能够产生多路划分，以下图所示。二元划分的Gini系数的计算与二元属性相似。对于车型属性第一种二元分类，{运动，豪华}的Gini系数是0.4922，而{家用}的Gini系数是0.375。这个划分的Gini系数加权平均是：

(16 / 20) \times 0.4922 + (4 / 20) \times 0.375 = 0.468

(4 / 20) \times 0.375 + (8 / 20) \times 0 + (8 / 20) \times 0.219 = 0.163

考虑特征值连续的状况

考虑下图所示的例子，其中测试条件“年收入

对第一个候选

对第二个候选

重复这样的计算，直到算出全部候选的Gini系数值。最佳的划分点对应于产生最小Gini系数值的点，即

其余纯度测量指标暨划分标准

正如咱们前面已经提到的，评估节点的Impurity能够是三个标准中的任何一个。并且咱们已经介绍了Gini系数。

信息熵与信息增益

下面来谈谈另一个可选的标准：信息熵（entropy）。在信息论中，熵是表示随机变量不肯定性的度量。熵的取值越大，随机变量的不肯定性也越大。

设

P (X = x i) = p i, i = 1, 2, \dots, n

H (X) = - \sum i = 1 n p i log p i

H (p) = - \sum i = 1 n p i log p i

H (Y | X) = \sum j = 1 n P (X = x j) H (Y | X = x j)

E n t r o p y (t) = - \sum j p (j | t) log p (j | t)

Maximum
Minimum (0.0) when all records belong to one class, implying most information

仍是来看一个具体的计算例子，以下图所示（基本状况与前面介绍Gini系数时的例子相似，咱们再也不赘述）：

G A I N = E n t r o p y (p) - [\sum i = 1 k n i n E n t r o p y ( i ) ]

使用信息增益的一个缺点在于：信息增益的大小是相对于训练数据集而言的。在分类问题困难时，即训练数据集的经验熵比较大时，信息增益会偏大。反之，信息增益会偏小。使用信息增益比（Information gain ratio）能够对这一问题进行校订。

S p l i t I N F O = - \sum i = 1 k n i n log n i n

G a i n R a t i o s p l i t = G A I N S p l i t I N F O

分类偏差

给定一个节点

E r r o r (t) = 1 - max i P (i | t)

Maximum
Minimum (0.0) when all records belong to one class, implying most interesting information

话很少说，仍是一个简单的算例：

下图给出了二分类模型中，熵、Gini系数、分类偏差的比较状况。若是咱们采用二分之一熵

咱们最后再来看一个Gini系数和分类偏差对比的例子：

G i n i (N 1) = 1 - (3 / 3) 2 - (0 / 3) 2 = 0

M i s s C l a s s (N 1) = 1 - (3 / 3) = 0

（未完，待续…）

参考文献

【1】Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y. and Zhou, Z.H., 2008. Top 10 algorithms in data mining. Knowledge and information systems, 14(1), pp.1-37. (http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf）
【2】Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 数据挖掘导论，人民邮电出版社
【3】李航，统计学习方法，清华大学出版社
【4】明尼苏达大学Prof Vipin Kumar 和墨尔本大学Prof Rao Kotagiri的课程幻灯片材料

若是你对机器学习和数据挖掘感兴趣，你还能够参考个人高能资源帖：
【5】机器学习与数据挖掘网上资源搜罗
【6】机器学习与数据挖掘的学习路线图