【数据挖掘技术】决策树

时间 2019-11-20

标签数据挖掘技术决策树繁體版

原文原文链接

1、决策树基本概述算法

决策树（Decison Tree)之因此称为树是由于其建模过程相似一棵树的成长过程，即从根部开始，到树干，到分支，再到细枝末叶的分叉，最终胜出出一片片的树叶。在数据树里面，所分析的数据数据样本先是成为一个树根，而后通过层层分支，最终造成若干个节点，每一个节点表明一个结论。从决策树的过年不到叶节点的一条路径就造成了对相应对象的类别预测。dom

决策树算法之因此在数据分析挖掘应用中如此流行，主要缘由是在于决策树的构造不须要任何领域的知识，很适合探索式的数据挖掘，而且能够处理高纬度的数据。函数

策树技术对数据分布甚至缺失是很是宽容的，不容易受到极值的影响。这是因为，决策树是分参数的，因此不须要担忧利群点和数据是否现行可分的问题，可是决策树最主要的缺点就是容易过分拟合，这也正是随机森林（Random Tree）等集成学习算法被提出了的缘由。可是RT在不少分类问题中表现得最好（我的通常认为比SVM稍好），且速度可快扩展，也不像SVM那样须要调用大量的参数，所以RT是近期来很是流行的方法。工具

2、决策树原理学习

构成决策树采用的是自顶向下的贪婪算法，它会在每一个节点选择分类效果最好的属性对样本进行二分类，而后继续这个过程，直到这棵树可以准确的分类训练样本，或者全部的属性都已被用过。决策树算法的核心是在对每一个结点进行测试后，选择最佳的属性，而且对决策树进行剪枝处理。测试

结点属性

最多见的结点属性选择方法（标准）有信息增益、信息增益率、Gini指数、卡方检验（Chi-Square Statistics）等。

剪枝处理

1 决策树的剪枝处理包括两种方式：先剪枝（Prepruning）和后剪枝（Postpruning）. 2 
3 所谓先剪枝，就是让决策树在生长以前，就认为定好树的层数，以及每一个节点所容许的最少的样本数量，并且在给点的节点再也不分裂。 4 
5 所谓后剪枝，是让树充分生长，而后剪去子树，删除节点的分支并用树叶代替。后剪枝的方法更经常使用。CART算法就包含了后剪枝方法，它使用的是代价复杂度剪枝算法，即将树的代价复杂度可看作是树种树叶结点的个数和树的错误率的函数。C4.5使用的是悲观剪枝方法，相似于代替复杂度剪枝算法。

3、决策树算法优化

目前，最多见的3中决策树方法分别是：CHAIN,CART,和ID3(包括后来的C4.5，乃至C5.0)。spa

CHAID算法：卡方自动相互关系检测

CHAID(Chi-square Antomatic Detector，卡方自动相互关系检测)算法的历史较长，中文简称为。CHAID依据局部最优原则，利用卡方检验来选择对因变量最具备影响的自变量，CHAID应用的前提是因变量为类别型变量（Category）.code

CHAID算法的逻辑，简述以下：orm

【step 1】对全部的自变量进行逐一检测，利用卡方检验肯定每一个自变量和因变量之间的关系。
             具体来讲，就是在检验时，每次从自变量里抽取两个既定值，与因变量进行卡方检验。若是卡方检验显式二者关系不显著，则证实上述两个既定值能够合并。如此，合并过程将会不断减小自变量的取值数量，知         道该自变量全部取值都呈现显著性为止。在对们每一个自变量进行相似处理后，经过比较找出最显著的自变量，并按自变量最终取值对样本进行分割，造成若干个新的生长结点。
【step2】CHAID在每一个新结点上，重复上述步骤，对每一个新结点从新进行最佳自变量选择。
         整个过程不断重复，直到每一个结点没法再找到一个与因变量有统计显著性的自变量对其进行分割为止，或者以前限度的条件获得知足，树的生长就此终止。

CART：卡方自动相互关系检测

CART(Classification and Regression Tree，分类与会归属)算法产生于20世纪80年代中期，CART的分割逻辑与CHAID相同，每一层的划分都是基于对多有自变量的检验和选择上的。可是，CART采用的检验标准不是卡方检验，而是基尼系数（Gini）等不纯度的指标。二者最大的区别在于CHAID采用的是局部最优原则，即节点之间互不相关，一个结点肯定了以后，下面的生长过程彻底在结点内进行。而CART则着眼于整体优化，即先让树尽量地生长，而后再回过头来对数进行修剪（Prune），这一点很是相似统计分析中回归算法离的反向选择（Backward Selection）。CART所生产的决策时是二分的，每一个节点只能分出两只，而且在树的生长过程当中，同一个自变量能够反复使用屡次（分割），这些都不一样于CHAID的特色。另外，若是是自变量存在数据缺失的状况，CART的处理方式将会有将会是寻找一个替代数据代替（填充）缺失值，而CHAID则是把缺失值做为单独的一类数值。

ID3：迭代二分器

ID3(Iterative Dichotomiser，迭代的二分器)算法与CART是同一时期产生的，其最大的特色在于自变量的挑选标准是：基于信息增益的度量选择具备最高信息增益的属性做为节点的分裂（分割）属性，其结果就是对分割后的结点进行分类所需的信息量最小，这也是一种划分纯度的思想。至于以后发展起来的C4.5能够理解为ID3的发展版（后继版），二者的主要区别在于C4.5采用信息增益表（Gain Ratio）表明了ID3中的信息增益度量，如此替换的主要缘由是信息增益度有个缺点，就是倾向于选择具备大量值的属性。这里给个极端的例子，对于Member_Id的划分，每一个ID都是一个最纯的组，可是这样的划分没有任何实际意义。而C4.5所采用的信息增量率就能够较好的客服这个缺点，它在信息增益的基础上，增长了一个分裂信息（SplitInformation）对其进行规范化约束。

决策树技术在数据化运营中的主要用途体如今：做为分类，预测问题的典型支持技术，它在用户划分、行为预测、规则数理等方面具备普遍的应用前景，决策树甚至能够做为其余建模技术前期进行变量筛选的一种方法，及经过决策树的分割来筛选有效地输入自变量。

4、决策树的应用优点

决策树模型很是直观易懂，生成一系列“若是.......那么.......”的逻辑判断很容易让人理解和应用。
决策树搭建和应用的速度比较快，而且能够处理区间型变量和类别型变量。可是要强调的是“能够处理区间型变量”不表明“快速处理区间型变量”，若是输入变量只是类别型或次序型变量，决策树的搭建是很是快的，可是若是加上了区间型变量，视数据规模，其模型搭建速度可能有所不一样。
决策树对数据分布没有特别严格的要求。
对缺失值很宽容，几乎不作任何处理就能够应用。
不容易受异常值的影响。
能够同时对付数据中线性和非线性的关系。
决策树一般还能够做为有效工具来帮助其余模型算法挑选自变量。决策树不只自己对于数据的前期处理和清洗没有什么特别的要求和限制，它还会帮助别的模型算法去挑选自变量。所以决策树算法里节点的自变量选择方法彻底适用于其余算法模型，包括卡方检验、Gini指数、信息增益等。
决策树算法使用信息原理对大样本的属性进行信息量分析，并计算各属性的信息量，找出反映类别的重要属性，可准确、高效地发现哪些属性对分类最具备意义。这一点对于区间变量的分享操做很是重要。

5、决策树的缺点

决策树最大的缺点就是其原理中的贪心算法。贪心算法老是作出在当前看来最好的选择，却并不从总体上思考最优的划分，所以，它所作的选择只能是某种意义上的最优选择。
若是目标变量是连续型变量，那就不适宜用决策树了，最好改用线性回归去解决。
决策树缺少像回归或聚类那样的丰富多彩的检测标准和评价方法。
当某些自变量的类别数量比较多，或者自变量是区间型变量时，决策树过分拟合的危险性会增长。针对这种状况，数据分析师须要进行数据转换，好比分箱和屡次模型验证和测试，确保其具备稳定性。
决策树对区间型变量进行分箱操做室，不管是否考虑了顺序因素，均可能会丧失某些重要的信息。尤为是当分箱钱的区间型变量与目标变量有明显的线性关系室，这种分箱操做所形成的信息损失更为明显。