决策树算法原理(下)

    在决策树算法原理(上)这篇里,咱们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,咱们也提到了它的不足,好比模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题, CART算法大部分作了改进。CART算法也就是咱们下面的重点了。因为CART算法能够作回归,也能够作分类,咱们分别加以介绍,先从CART分类树算法开始,重点比较和C4.5算法的不一样点。接着介绍CART回归树算法,重点介绍和CART分类树的不一样点。而后咱们讨论CART树的建树算法和剪枝算法,最后总结决策树算法的优缺点。html

1. CART分类树算法的最优特征选择方法

    咱们知道,在ID3算法中咱们使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减小信息增益容易选择特征值多的特征的问题。可是不管是ID3仍是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于彻底丢失熵模型的优势呢?有!CART分类树算法使用基尼系数来代替信息增益比,基尼系数表明了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。算法

    具体的,在分类问题中,假设有K个类别,第k个类别的几率为$p_k$, 则基尼系数的表达式为:网络

$$Gini(p) = \sum\limits_{k=1}^{K}p_k(1-p_k) = 1- \sum\limits_{k=1}^{K}p_k^2$$函数

    若是是二类分类问题,计算就更加简单了,若是属于第一个样本输出的几率是p,则基尼系数的表达式为:post

$$Gini(p) = 2p(1-p)$$学习

    对于个给定的样本D,假设有K个类别, 第k个类别的数量为$C_k$,则样本D的基尼系数表达式为:测试

$$Gini(D) = 1-\sum\limits_{k=1}^{K}(\frac{|C_k|}{|D|})^2 $$ htm

    特别的,对于样本D,若是根据特征A的某个值a,把D分红D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:blog

$$Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2) $$递归

    你们能够比较下基尼系数表达式和熵模型的表达式,二次运算是否是比对数简单不少?尤为是二类分类的计算,更加简单。可是简单归简单,和熵模型的度量方式比,基尼系数对应的偏差有多大呢?对于二类分类,基尼系数和熵之半的曲线以下:

    从上图能够看出,基尼系数和熵之半的曲线很是接近,仅仅在45度角附近偏差稍大。所以,基尼系数能够作为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法创建起来的是二叉树,而不是多叉树。这样一能够进一步简化基尼系数的计算,二能够创建一个更加优雅的二叉树模型。

2. CART分类树算法对于连续特征和离散特征处理的改进

    对于CART分类树连续值的处理问题,其思想和C4.5是相同的,都是将连续的特征离散化。惟一的区别在于在选择划分点时的度量方式不一样,C4.5使用的是信息增益比,则CART分类树使用的是基尼系数。

    具体的思路以下,好比m个样本的连续特征A有m个,从小到大排列为${a_1,a_2,...,a_m}$,则CART算法取相邻两样本值的平均数,一共取得m-1个划分点,其中第i个划分点$T_i表示$为:$T_i = \frac{a_i+a_{i+1}}{2}$。对于这m-1个点,分别计算以该点做为二元分类点时的基尼系数。选择基尼系数最小的点做为该连续特征的二元离散分类点。好比取到的基尼系数最小的点为$a_t$,则小于$a_t$的值为类别1,大于$a_t$的值为类别2,这样咱们就作到了连续特征的离散化。要注意的是,与ID3或者C4.5处理离散属性不一样的是,若是当前节点为连续属性,则该属性后面还能够参与子节点的产生选择过程。

 

    对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。

    回忆下ID3或者C4.5,若是某个特征A被选取创建决策树节点,若是它有A1,A2,A3三种类别,咱们会在决策树上一下创建一个三叉的节点。这样致使决策树是多叉树。可是CART分类树使用的方法不一样,他采用的是不停的二分,仍是这个例子,CART分类树会考虑把A分红$\{A1\}和\{A2,A3\}$, $\{A2\}和\{A1,A3\}$, $\{A3\}和\{A1,A2\}$三种状况,找到基尼系数最小的组合,好比$\{A2\}和\{A1,A3\}$,而后创建二叉树节点,一个节点是A2对应的样本,另外一个节点是{A1,A3}对应的节点。同时,因为此次没有把特征A的取值彻底分开,后面咱们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不一样,在ID3或者C4.5的一棵子树中,离散特征只会参与一次节点的创建。

3. CART分类树创建算法的具体流程

    上面介绍了CART算法的一些和C4.5不一样之处,下面咱们看看CART分类树创建算法的具体流程,之因此加上了创建,是由于CART树算法还有独立的剪枝算法这一块,这块咱们在第5节讲。

    算法输入是训练集D,基尼系数的阈值,样本个数阈值。

    输出是决策树T。

    咱们的算法从根节点开始,用训练集递归的创建CART树。

    1) 对于当前节点的数据集为D,若是样本个数小于阈值或者没有特征,则返回决策子树,当前节点中止递归。

    2) 计算样本集D的基尼系数,若是基尼系数小于阈值,则返回决策树子树,当前节点中止递归。

    3) 计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数,对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和上篇的C4.5算法里描述的相同。

    4) 在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分红两部分D1和D2,同时创建当前节点的左右节点,作节点的数据集D为D1,右节点的数据集D为D2.

    5) 对左右的子节点递归的调用1-4步,生成决策树。

   

    对于生成的决策树作预测的时候,假如测试集里的样本A落到了某个叶子节点,而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里几率最大的类别。

4. CART回归树创建算法

    CART回归树和CART分类树的创建算法大部分是相似的,因此这里咱们只讨论CART回归树和CART分类树的创建算法不一样的地方。

    首先,咱们要明白,什么是回归树,什么是分类树。二者的区别在于样本输出,若是样本输出是离散值,那么这是一颗分类树。若是果样本输出是连续值,那么那么这是一颗回归树。

    除了概念的不一样,CART回归树和CART分类树的创建和预测的区别主要有下面两点:

    1)连续值的处理方法不一样

    2)决策树创建后作预测的方式不一样。

 

    对于连续值的处理,咱们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣状况。这比较适合分类模型,可是对于回归模型,咱们使用了常见的和方差的度量方式,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分红的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为:

$$\underbrace{min}_{A,s}\Bigg[\underbrace{min}_{c_1}\sum\limits_{x_i \in D_1(A,s)}(y_i - c_1)^2 + \underbrace{min}_{c_2}\sum\limits_{x_i \in D_2(A,s)}(y_i - c_2)^2\Bigg]$$

    其中,$c_1$为D1数据集的样本输出均值,$c_2$为D2数据集的样本输出均值。

 

    对于决策树创建后作预测的方式,上面讲到了CART分类树采用叶子节点里几率最大的类别做为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。

    除了上面提到了之外,CART回归树和CART分类树的创建算法和预测没有什么区别。

5. CART树算法的剪枝

    CART回归树和CART分类树的剪枝策略除了在度量损失的时候一个使用均方差,一个使用基尼系数,算法基本彻底同样,这里咱们一块儿来说。

    因为决策时算法很容易对训练集过拟合,而致使泛化能力差,为了解决这个问题,咱们须要对CART树进行剪枝,即相似于线性回归的正则化,来增长决策树的泛化能力。可是,有不少的剪枝方法,咱们应该这么选择呢?CART采用的办法是后剪枝法,即先生成决策树,而后产生全部可能的剪枝后的CART树,而后使用交叉验证来检验各类剪枝的效果,选择泛化能力最好的剪枝策略。

    也就是说,CART树的剪枝算法能够归纳为两步,第一步是从原始决策树生成各类剪枝效果的决策树,第二部是用交叉验证来检验剪枝后的预测能力,选择泛化预测能力最好的剪枝后的数做为最终的CART树。

 

    首先咱们看看剪枝的损失函数度量,在剪枝的过程当中,对于任意的一刻子树T,其损失函数为:

$$C_{\alpha}(T_t) = C(T_t) + \alpha |T_t|$$

    其中,$\alpha$为正则化参数,这和线性回归的正则化同样。$C(T_t)$为训练数据的预测偏差,分类树是用基尼系数度量,回归树是均方差度量。$|T_t|$是子树T的叶子节点的数量。

    当$\alpha = 0$时,即没有正则化,原始的生成的CART树即为最优子树。当$\alpha = \infty$时,即正则化强度达到最大,此时由原始的生成的CART树的根节点组成的单节点树为最优子树。固然,这是两种极端状况。通常来讲,$\alpha$越大,则剪枝剪的越厉害,生成的最优子树相比原生决策树就越偏小。对于固定的$\alpha$,必定存在使损失函数$C_{\alpha}(T)$最小的惟一子树。

 

    看过剪枝的损失函数度量后,咱们再来看看剪枝的思路,对于位于节点t的任意一颗子树$T_t$,若是没有剪枝,它的损失是

$$C_{\alpha}(T_t) = C(T_t) + \alpha |T_t|$$

    若是将其剪掉,仅仅保留根节点,则损失是

$$C_{\alpha}(T) = C(T) + \alpha$$ 

    当$\alpha = 0$或者$\alpha $很小时,$C_{\alpha}(T_t) < C_{\alpha}(T)$ , 当$\alpha$增大到必定的程度时$$C_{\alpha}(T_t) = C_{\alpha}(T)$$。当$\alpha$继续增大时不等式反向,也就是说,若是知足下式:

$$\alpha = \frac{C(T)-C(T_t)}{|T_t|-1}$$

    $T_t$和$T$有相同的损失函数,可是$T$节点更少,所以能够对子树$T_t$进行剪枝,也就是将它的子节点所有剪掉,变为一个叶子节点$T$。

 

    最后咱们看看CART树的交叉验证策略。上面咱们讲到,能够计算出每一个子树是否剪枝的阈值$\alpha$,若是咱们把全部的节点是否剪枝的值$\alpha$都计算出来,而后分别针对不一样的$\alpha$所对应的剪枝后的最优子树作交叉验证。这样就能够选择一个最好的$\alpha$,有了这个$\alpha$,咱们就能够用对应的最优子树做为最终结果。

 

    好了,有了上面的思路,咱们如今来看看CART树的剪枝算法。

    输入是CART树创建算法获得的原始决策树$T$。

    输出是最优决策子树$T_\alpha$。

    算法过程以下:

    1)初始化$\alpha_{min}= \infty$, 最优子树集合$\omega=\{T\}$。

    2)从叶子节点开始自下而上计算各内部节点t的训练偏差损失函数$C_{\alpha}(T_t)$(回归树为均方差,分类树为基尼系数), 叶子节点数$|T_t|$,以及正则化阈值$\alpha= min\{\frac{C(T)-C(T_t)}{|T_t|-1}, \alpha_{min}\}$, 更新$\alpha_{min}= \alpha$

    3) 获得全部节点的$\alpha$值的集合M。

    4)从M中选择最大的值$\alpha_k$,自上而下的访问子树t的内部节点,若是$\frac{C(T)-C(T_t)}{|T_t|-1} \leq \alpha_k$时,进行剪枝。并决定叶节点t的值。若是是分类树,则是几率最高的类别,若是是回归树,则是全部样本输出的均值。这样获得$\alpha_k$对应的最优子树$T_k$

    5)最优子树集合$\omega=\omega \cup T_k$, $M= M -\{\alpha_k\}$。

    6) 若是M不为空,则回到步骤4。不然就已经获得了全部的可选最优子树集合$\omega$.

    7) 采用交叉验证在$\omega$选择最优子树$T_\alpha$

6. CART算法小结

    上面咱们对CART算法作了一个详细的介绍,CART算法相比C4.5算法的分类方法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算。固然CART树最大的好处是还能够作回归模型,这个C4.5没有。下表给出了ID3,C4.5和CART的一个比较总结。但愿能够帮助你们理解。

算法 支持模型 树结构 特征选择 连续值处理 缺失值处理  剪枝
ID3 分类 多叉树 信息增益 不支持  不支持  不支持
C4.5 分类 多叉树 信息增益比 支持  支持  支持
CART 分类,回归 二叉树 基尼系数,均方差 支持  支持  支持

    看起来CART算法高大上,那么CART算法还有没有什么缺点呢?有!主要的缺点我认为以下:

    1)应该你们有注意到,不管是ID3, C4.5仍是CART,在作特征选择的时候都是选择最优的一个特征来作分类决策,可是大多数,分类决策不该该是由某一个特征决定的,而是应该由一组特征决定的。这样决策获得的决策树更加准确。这个决策树叫作多变量决策树(multi-variate decision tree)。在选择最优特征的时候,多变量决策树不是选择某一个最优特征,而是选择最优的一个特征线性组合来作决策。这个算法的表明是OC1,这里很少介绍。

    2)若是样本发生一点点的改动,就会致使树结构的剧烈改变。这个能够经过集成学习里面的随机森林之类的方法解决。   

7. 决策树算法小结

    终于到了最后的总结阶段了,这里咱们再也不纠结于ID3, C4.5和 CART,咱们来看看决策树算法做为一个大类别的分类回归算法的优缺点。这部分总结于scikit-learn的英文文档。

    首先咱们看看决策树算法的优势:

    1)简单直观,生成的决策树很直观。

    2)基本不须要预处理,不须要提早归一化,处理缺失值。

    3)使用决策树预测的代价是$O(log_2m)$。 m为样本数。

    4)既能够处理离散值也能够处理连续值。不少算法只是专一于离散值或者连续值。

    5)能够处理多维度输出的分类问题。

    6)相比于神经网络之类的黑盒分类模型,决策树在逻辑上能够获得很好的解释

    7)能够交叉验证的剪枝来选择模型,从而提升泛化能力。

    8) 对于异常点的容错能力好,健壮性高。

    咱们再看看决策树算法的缺点:

    1)决策树算法很是容易过拟合,致使泛化能力不强。能够经过设置节点最少样本数量和限制决策树深度来改进。

    2)决策树会由于样本发生一点点的改动,就会致使树结构的剧烈改变。这个能够经过集成学习之类的方法解决。

    3)寻找最优的决策树是一个NP难的问题,咱们通常是经过启发式方法,容易陷入局部最优。能够经过集成学习之类的方法来改善。

    4)有些比较复杂的关系,决策树很难学习,好比异或。这个就没有办法了,通常这种关系能够换神经网络分类方法来解决。

    5)若是某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个能够经过调节样本权重来改善。

 

    以上就是决策树的所有内容了,里面有不少我我的思考的逻辑在,但愿能对你们有所帮助,有错误的话请指正。

 

(欢迎转载,转载请注明出处。欢迎沟通交流: liujianping-ok@163.com)