决策树算法之分类回归树 CART（Classification and Regression Trees）【2】

时间 2019-11-08

标签决策树算法分类回归 cart classification regression trees 繁體版

原文原文链接

上一篇文章主要介绍了分类树，下面咱们再一块儿来看一下回归树，咱们知道，分类决策树的叶子节点即为分类的结果；同理，回归树的叶子节点即是连续的预测值。那么，一样是回归算法，线性回归和决策树回归有什么区别呢？区别在于，前者拟合的是一条直线，然后者却能够拟合非线性的数据，以下图中的数据就是用线性回归来拟合的：html

当数据呈现非线性分布时，例以下面的数据，假设它统计了流行歌手的喜爱程度和年龄的关系，该系数值在 10 岁以前很低，接着在 10 到 20 岁时达到最高，但随着年龄的增长，该兴趣度会逐渐降低，如图所示：算法

上面的数据若是用线性回归来拟合，是这样的：学习

很明显，这样作会获得较大的 Bias，那么该数据就不该该使用线性回归这种简单的模型来表征，此时就须要用到非线性模型了，而回归树就是其中的一种。下边左图即是使用回归树对该数据进行拟合的结果，而右边是这棵树具体的样子：当 age 小于等于 13 时，结果为 1.228；age 大于 31 时，结果是 0.41；age 在 (13, 21] 的区域，结果为 100，剩下区域的结果为 54。cdn

下面咱们具体看一下这棵回归树是如何构建的htm

构建回归树

首先，咱们在整个样本空间中选择一个阈值，该阈值能够将样本分为两部分，接下来分别对这两部分求出它们的均值，以均值做为预测值，计算全部数据的真实值到预测值之间的 SSR（Sum of Squared Residuals），SSR 本质上和 MSE（Mean Squared Error）的概念是一致的，都是衡量总体预测值和真实值之间的差别的，该差别越小越好。blog

以本数据为例，刚开始咱们选择的阈值 threshold 为 1，则下图中的样本被阈值（虚线）分为两部分，而后分别对左右两边的数据求平均，结果如图中两条水平实线所示，以水平线做为每一个区域的预测值，接着咱们对每一个点，求它们离均值之间的差的平方（偏差的平方），并把它们加起来，获得的结果就是 SSR。递归

上图中的 SSR 为get

SSR = (0-0)^2 + (0-35.8)^2 + ... + (0-35.8)^2 = 31358

每算完一个 SSR，都要改变阈值，用一样的方法在新的分类下算一个新的 SSR，如此循环下去，直到遍历完全部可能的域值，此时咱们就能够做出一个「域值-SSR」的关系图，以下：it

以上过程的目的是为了找一个阈值，可使得 SSR 达到最小，而可使 SSR 最小的域值就是咱们的树根。反过来理解一下，即咱们须要在特征空间（定义域）找到一个值，该值把样本分为两类，分别对应了 2 个不一样的预测结果，此预测结果和样本真实值（值域）之间的差别要越小越好，在本例中，该值为 13，示意图以下：io

和分类树同样，只要肯定了树根的构建算法，后面构造其余节点实际上和构造树根是如出一辙的，以上图为例，即分别以树的左右两边的子样本空间为整个样本空间，继续构造子样本空间的“树根”，实际上这就是递归，同时在递归的过程当中，随着树的节点不断分裂，咱们获得的残差（SSR）会愈来愈小。

须要注意的是，决策树若是不设限制，它的节点能够无限分裂下去，直到叶子节点中只包含 1 个元素为止，此时整棵树的残差达到最小值 0，这样作会让咱们的模型在训练时获得很低的 Bias，但可想而知的是它的泛化能力很弱，即 Variance 很高，因而便过拟合了，这也是决策树容易过拟合的缘由。

为了防止过拟合，一般有 2 个参数能够设置，一个是树的高度，另外一个是叶子节点中最小样本的个数，本文中的模型对这两个参数的设置分别是 3 和 4；在真实环境中，叶子节点的样本数通常会设在 20 以上。

多维度特征的回归树

上面例子是使用单特征（年龄）来构建回归树，真实项目每每会有多个特征，此时咱们该如何作呢？咱们在原来的数据集中增长两个特征：性别和月支出，以下

年龄	性别	月支出	流行歌手喜爱度
3	male	300	0
7	female	300	5
13	female	500	90
17	male	500	85
18	female	500	99
25	male	4000	75
30	female	5000	40
35	male	7000	0

如今咱们知道了，构造决策树的要点在于树根的构造，多个特征的话，咱们须要分别对每一个特征，找出可使 SSR 最低的阈值，根据前面学到的知识，对年龄来讲，可以使 SSR 最低的域值是「age<=7」，此时 $SSR_{age}=7137$ ；

同理，对月支出来讲，可以使 SSR 最低的域值是「expense<=300」，此时 $SSR_{expense}=7143$ 。

而性别这个特征比较特别，它只有一个阈值，其 $SSR_{gender}=12287$ 。

以上三个数字，有兴趣的同窗能够根据上面的表格本身算一下，最终咱们选择 SSR 最低的特征及其阈值做为根节点，即「age<=7」。

知道根节点如何产生后，后面节点的生成就好办了，因而多维特征的回归树咱们也构建出来了。

总结

本文主要介绍回归决策树的生成算法，及回归树中比较重要的参数为：树的深度和叶子节点中最小的样本数，这两个参数能够防止过拟合问题。

最后咱们一块儿学习了从多个特征维度来产生回归树，它和单维度特征的区别在于，每产生一个节点前，都须要计算每一个特征的 $SSR_{min}$ 及其对应的阈值，最后取其中最小的 $SSR_{min}$ 对应的特征和阈值做为该节点。

参考资料：Regression Trees, Clearly Explained

决策树算法之分类回归树 CART（Classification and Regression Trees）【1】