1、决策树基本概述算法
决策树(Decison Tree)之因此称为树是由于其建模过程相似一棵树的成长过程,即从根部开始,到树干,到分支,再到细枝末叶的分叉,最终胜出出一片片的树叶。在数据树里面,所分析的数据数据样本先是成为一个树根,而后通过层层分支,最终造成若干个节点,每一个节点表明一个结论。从决策树的过年不到叶节点的一条路径就造成了对相应对象的类别预测。dom
决策树算法之因此在数据分析挖掘应用中如此流行,主要缘由是在于决策树的构造不须要任何领域的知识,很适合探索式的数据挖掘,而且能够处理高纬度的数据。函数
策树技术对数据分布甚至缺失是很是宽容的,不容易受到极值的影响。这是因为,决策树是分参数的,因此不须要担忧利群点和数据是否现行可分的问题,可是决策树最主要的缺点就是容易过分拟合,这也正是随机森林(Random Tree)等集成学习算法被提出了的缘由。可是RT在不少分类问题中表现得最好(我的通常认为比SVM稍好),且速度可快扩展,也不像SVM那样须要调用大量的参数,所以RT是近期来很是流行的方法。工具
2、决策树原理学习
构成决策树采用的是自顶向下的贪婪算法,它会在每一个节点选择分类效果最好的属性对样本进行二分类,而后继续这个过程,直到这棵树可以准确的分类训练样本,或者全部的属性都已被用过。决策树算法的核心是在对每一个结点进行测试后,选择最佳的属性,而且对决策树进行剪枝处理。测试
最多见的结点属性选择方法(标准)有信息增益、信息增益率、Gini指数、卡方检验(Chi-Square Statistics)等。
1 决策树的剪枝处理包括两种方式:先剪枝(Prepruning)和后剪枝(Postpruning). 2
3 所谓先剪枝,就是让决策树在生长以前,就认为定好树的层数,以及每一个节点所容许的最少的样本数量,并且在给点的节点再也不分裂。 4
5 所谓后剪枝,是让树充分生长,而后剪去子树,删除节点的分支并用树叶代替。后剪枝的方法更经常使用。CART算法就包含了后剪枝方法,它使用的是代价复杂度剪枝算法,即将树的代价复杂度可看作是树种树叶结点的个数和树的错误率的函数。C4.5使用的是悲观剪枝方法,相似于代替复杂度剪枝算法。
3、决策树算法优化
目前,最多见的3中决策树方法分别是:CHAIN,CART,和ID3(包括后来的C4.5,乃至C5.0)。spa
CHAID(Chi-square Antomatic Detector,卡方自动相互关系检测)算法的历史较长,中文简称为。CHAID依据局部最优原则,利用卡方检验来选择对因变量最具备影响的自变量,CHAID应用的前提是因变量为类别型变量(Category).code
CHAID算法的逻辑,简述以下:orm
【step 1】对全部的自变量进行逐一检测,利用卡方检验肯定每一个自变量和因变量之间的关系。 具体来讲,就是在检验时,每次从自变量里抽取两个既定值,与因变量进行卡方检验。若是卡方检验显式二者关系不显著,则证实上述两个既定值能够合并。如此,合并过程将会不断减小自变量的取值数量,知 道该自变量全部取值都呈现显著性为止。在对们每一个自变量进行相似处理后,经过比较找出最显著的自变量,并按自变量最终取值对样本进行分割,造成若干个新的生长结点。 【step2】CHAID在每一个新结点上,重复上述步骤,对每一个新结点从新进行最佳自变量选择。
整个过程不断重复,直到每一个结点没法再找到一个与因变量有统计显著性的自变量对其进行分割为止,或者以前限度的条件获得知足,树的生长就此终止。
CART(Classification and Regression Tree,分类与会归属)算法产生于20世纪80年代中期,CART的分割逻辑与CHAID相同,每一层的划分都是基于对多有自变量的检验和选择上的。可是,CART采用的检验标准不是卡方检验,而是基尼系数(Gini)等不纯度的指标。二者最大的区别在于CHAID采用的是局部最优原则,即节点之间互不相关,一个结点肯定了以后,下面的生长过程彻底在结点内进行。而CART则着眼于整体优化,即先让树尽量地生长,而后再回过头来对数进行修剪(Prune),这一点很是相似统计分析中回归算法离的反向选择(Backward Selection)。CART所生产的决策时是二分的,每一个节点只能分出两只,而且在树的生长过程当中,同一个自变量能够反复使用屡次(分割),这些都不一样于CHAID的特色。另外,若是是自变量存在数据缺失的状况,CART的处理方式将会有将会是寻找一个替代数据代替(填充)缺失值,而CHAID则是把缺失值做为单独的一类数值。
ID3(Iterative Dichotomiser,迭代的二分器)算法与CART是同一时期产生的,其最大的特色在于自变量的挑选标准是:基于信息增益的度量选择具备最高信息增益的属性做为节点的分裂(分割)属性,其结果就是对分割后的结点进行分类所需的信息量最小,这也是一种划分纯度的思想。至于以后发展起来的C4.5能够理解为ID3的发展版(后继版),二者的主要区别在于C4.5采用信息增益表(Gain Ratio)表明了ID3中的信息增益度量,如此替换的主要缘由是信息增益度有个缺点,就是倾向于选择具备大量值的属性。这里给个极端的例子,对于Member_Id的划分,每一个ID都是一个最纯的组,可是这样的划分没有任何实际意义。而C4.5所采用的信息增量率就能够较好的客服这个缺点,它在信息增益的基础上,增长了一个分裂信息(SplitInformation)对其进行规范化约束。
决策树技术在数据化运营中的主要用途体如今:做为分类,预测问题的典型支持技术,它在用户划分、行为预测、规则数理等方面具备普遍的应用前景,决策树甚至能够做为其余建模技术前期进行变量筛选的一种方法,及经过决策树的分割来筛选有效地输入自变量。
4、决策树的应用优点
5、决策树的缺点