数据挖掘十大算法之决策树详解（2）

时间 2019-11-10

标签数据挖掘十大算法决策树详解繁體版

原文原文链接

在2006年12月召开的 IEEE 数据挖掘国际会议上（ICDM， International Conference on Data Mining），与会的各位专家选出了当时的十大数据挖掘算法（ top 10 data mining algorithms ），能够参见文献【1】。本博客已经介绍过的位列十大算法之中的算法包括：html

由于原文较长，我尝试把它们分散成几篇。本文是决策树模型系列中的第二篇，但愿你在阅读本文以前已经对《数据挖掘十大算法之决策树详解（1）》中以内容有较深刻理解。决策树模型是一类算法的集合，在数据挖掘十大算法中，具体的决策树算法占有两席位置，即C4.5和CART算法，本文都会介绍到它们。node

欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji，为保证公式、图表得以正确显示，强烈建议你从该地址上查看原版博文。本博客主要关注方向包括：数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、天然语言处理。算法

ID3算法

ID3和C4.5都是由澳大利亚计算机科学家Ross Quinlan开发的决策树构建算法，其中C4.5是在ID3上发展而来的。下面的算法描述主要出自文献【3】。数据结构

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。具体方法是：从根结点（root node）开始，对结点计算全部可能的特征的信息增益，选择信息增益最大的特征做为结点的特征，由该特征的不一样取值创建子结点；再对子结点递归地调用以上方法，构建决策树；直到全部特征的信息增益均很小或没有特征能够选择为止。最后获得一棵决策树。ID3至关于用极大似然法进行几率模型的选择。下面咱们给出一个更加正式的ID3算法的描述：机器学习

输入：训练数据集函数

若工具
若学习
不然，计算测试
对第大数据

下面咱们来看一个具体的例子，咱们的任务是根据天气状况计划是否要外出打球：

首先来算一下根节点的熵：

E n t r o p y (P l a y B a l l) = E n t r o p y (5, 9) = E n g

G (P l a y B a l l, O u t l o o k) = E (P l a y B a l l) - E (P l a y B a l l, O u t l

C4.5算法

C4.5是2006年国际数据挖掘大会票选出来的十大数据挖掘算法之首，可见它应该是很是powerful的！不只如此，事实上，C4.5的执行也至关的straightforward。

C4.5算法与ID3算法类似，C4.5算法是由ID3算法演进而来的。C4.5在生成的过程当中，用信息增益比来选择特征。下面咱们给出一个更加正式的C4.5算法的描述：

输入：训练数据集

若是
若是
不然，计算
对结点

How to do it in practice?

易见，C4.5跟ID3的执行步骤很是相似，只是在划分时所采用的准则不一样。咱们这里再也不赘述。可是这里能够来看看在实际的数据分析中，该如何操做。咱们所使用的数据是以下所示的一个csv文件，文件内容同本文最初给出的Play Ball例子中的数据是彻底一致的。

http://www.cs.waikato.ac.nz/ml/weka/downloading.html

使用Weka进行数据挖掘是很是容易的，你再也不须要像R语言或者MATLAB那样编写代码或者调用函数。基于GUI界面，在Weka中你只须要点点鼠标便可！首先咱们单击“Explorer”按钮来打开操做的主界面，以下图所示。

在后续的决策树系列文章中，咱们将继续深刻探讨CART算法等相关话题。

（未完，待续…）

参考文献

【1】Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y. and Zhou, Z.H., 2008. Top 10 algorithms in data mining. Knowledge and information systems, 14(1), pp.1-37. (http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf）
【2】Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 数据挖掘导论，人民邮电出版社
【3】李航，统计学习方法，清华大学出版社
【4】http://www.saedsayad.com/decision_tree.htm
【5】https://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm

若是你对机器学习和数据挖掘感兴趣，你还能够参考个人高能资源帖：
【6】机器学习与数据挖掘网上资源搜罗
【7】机器学习与数据挖掘的学习路线图