SKlearn中分类决策树的重要参数详解

时间 2019-12-05

标签 sklearn 分类决策树重要参数详解繁體版

原文原文链接

　　学习机器学习童鞋们应该都知道决策树是一个很是好用的算法，由于它的运算速度快，准确性高，方便理解，能够处理连续或种类的字段，而且适合高维的数据而被人们喜好，而Sklearn也是学习Python实现机器学习的一个很是好用的库，也是被广大学习机器学习们的童鞋们所喜好的，那么一个被人们喜好的算法和一个被人们喜好的库结合到一块儿会是什么样子的呢，下面就是在Sklearn库中的分类决策树的函数以及所包含的参数。node

classsklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, 
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

　　为何会变成这样呢……第一次有了喜欢的算法，又有了支持这个算法的一个很是好的库。两件快乐事情重合在一块儿。而这两份快乐，又给我带来更多的快乐。获得的，本该是像梦境通常幸福的结合……可是，为何，会变成这样呢。为何会变得这么复杂呢。算法

　　是否是感受两个结合起来的算法的参数有好多，不知道每一个参数应该怎么使用，那么下面咱们就对算法的一些关键参数进行分析，相信看完这些参数，你应该会明白如何使用Sklearn中的分类决策树。app

1. 重要参数：criterion

　　为了要将表格转化为一棵树，决策树须要找出最佳节点和最佳的分枝方法，对分类树来讲，衡量这个“最佳”的指标叫作“不纯度”。一般来讲，不纯度越低，决策树对训练集的拟合越好。如今使用的决策树算法在分枝方法上的核心大可能是围绕在对某个不纯度相关指标的最优化上。dom

　　不纯度基于节点来计算，树中的每一个节点都会有一个不纯度，而且子节点的不纯度必定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度必定是最低的。机器学习

　　Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择：函数

　　1）输入”entropy“，使用信息熵（Entropy）学习

　　2）输入”gini“，使用基尼系数（Gini Impurity）测试

　　其中t表明给定的节点，i表明标签的任意分类，$p(i|t)$表明标签分类i在节点t上所占的比例。注意，当使用信息熵时，sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。优化

　　比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。可是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些，由于基尼系数的计算不涉及对数。另外，由于信息熵对不纯度更加敏感，因此信息熵做为指标时，决策树的生长会更加“精细”，所以对于高维数据或者噪音不少的数据，信息熵很容易过拟合，基尼系数在这种状况下效果每每比较好。固然，这不是绝对的。spa

参数	criterion
如何影响模型?	肯定不纯度的计算方法，帮忙找出最佳节点和最佳分枝，不纯度越低，决策树对训练集的拟合越好
可能的输入有哪些？	不填默认基尼系数，填写gini使用基尼系数，填写entropy使用信息增益
怎样选取参数？	一般就使用基尼系数、数据维度很大，噪音很大时使用基尼系数维度低，数据比较清晰的时候，信息熵和基尼系数没区别当决策树的拟合程度不够的时候，使用信息熵两个都试试，很差就换另一个

　　到这里，决策树的基本流程其实能够简单归纳以下：

直到没有更多的特征可用，或整

　　可是若是仅仅根据这些就生成树的话，那每一个人画出来的每一棵树可能都不同。它为何会不稳定呢？若是使用其余数据集，它还会不稳定吗？

　　其实，不管决策树模型如何进化，在分枝上的本质都仍是追求某个不纯度相关的指标的优化，而正如咱们提到的，不纯度是基于节点来计算的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但最优的节点可以保证最优的树吗？集成算法被用来解决这个问题：sklearn表示，既然一棵树不能保证最优，那就建更多的不一样的树，而后从中取最好的。怎样从一组数据集中建不一样的树？在每次分枝时，不从使用所有特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的做为分枝用的节点。这样，每次生成的树也就不一样了。

2. 重要参数： random_state & splitter

　　random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（好比鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

　　splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，可是仍是会优先选择更重要的特征进行分枝（重要性能够经过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会由于含有更多的没必要要信息而更深更大，并因这些没必要要信息而下降对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你下降树建成以后过拟合的可能性。固然，树一旦建成，咱们依然是使用剪枝参数来防止过拟合。

3. 剪枝参数

　　在不加限制的状况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止。这样的决策树每每会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕。咱们收集的样本数据不可能和总体的情况彻底一致，所以当一棵决策树对训练数据有了过于优秀的解释性，它找出的规则必然包含了训练样本中的噪声，并使它对未知数据的拟合程度不足。

　　为了让决策树有更好的泛化性，咱们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。sklearn为咱们提供了不一样的剪枝策略：

3.1 max_depth

　　限制树的最大深度，超过设定深度的树枝所有剪掉

　　这是用得最普遍的剪枝参数，在高维度低样本量时很是有效。决策树多生长一层，对样本量的需求会增长一倍，因此限制树深度可以有效地限制过拟合。在集成算法中也很是实用。实际使用时，建议从=3开始尝试，看看拟合的效果再决定是否增长设定深度。

3.2 min_samples_leaf

　　min_samples_leaf 限定，一个节点在分枝后的每一个子节点都必须包含至少min_samples_leaf个训练样本，不然分枝就不会发生，或者，分枝会朝着知足每一个子节点都包含min_samples_leaf个样本的方向去发生

　　通常搭配max_depth使用，在回归树中有神奇的效果，可让模型变得更加平滑。这个参数的数量设置得过小会引发过拟合，设置得太大就会阻止模型学习数据。通常来讲，建议从=5开始使用。若是叶节点中含有的样本量变化很大，建议输入浮点数做为样本量的百分比来使用。同时，这个参数能够保证每一个叶子的最小尺寸，能够在回归问题中避免低方差，过拟合的叶子节点出现。对于类别很少的分类问题，=1一般就是最佳选择。

3.3 min_samples_split

　　min_samples_split限定，一个节点必需要包含至少min_samples_split个训练样本，这个节点才容许被分枝，不然分枝就不会发生。

3.4 max_features

　　通常max_depth使用，用做树的”精修“

　　max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。和max_depth殊途同归，max_features是用来限制高维度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的状况下，强行设定这个参数可能会致使模型学习不足。若是但愿经过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。

3.5 min_impurity_decrease

　　min_impurity_decrease限制信息增益的大小，信息增益小于设定数值的分枝不会发生。这是在0.19版本种更新的功能，在0.19版本以前时使用min_impurity_split。

4. 确认最优的剪枝参数

　　那具体怎么来肯定每一个参数填写什么值呢？这时候，咱们就要使用肯定超参数的曲线来进行判断了，继续使用咱们已经训练好的决策树模型clf。超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不一样超参数取值下模型的表现的线。在咱们建好的决策树里，咱们的模型度量指标就是score。

　　思考：

1. 剪枝参数必定可以提高模型在测试集上的表现吗？ - 调参没有绝对的答案，一切都是看数据自己。
2. 这么多参数，一个个画学习曲线？

　　不管如何，剪枝参数的默认值会让树无尽地生长，这些树在某些数据集上可能很是巨大，对内存的消耗。因此若是你手中的数据集很是大，你已经预测到不管如何你都是要剪枝的，那提早设定这些参数来控制树的复杂性和大小会比较好。

5. 目标权重参数

5.1 class_weight

　　完成样本标签平衡的参数。样本不平衡是指在一组数据集中，标签的一类天生占有很大的比例。好比说，在银行要判断“一个办了信用卡的人是否会违约”，就是是vs否（1%：99%）的比例。这种分类情况下，即使模型什么也不作，全把结果预测成“否”，正确率也能有99%。所以咱们要使用class_weight参数对样本标签进行必定的均衡，给少许的标签更多的权重，让模型更偏向少数类，向捕获少数类的方向建模。该参数默认None，此模式表示自动给与数据集中的全部标签相同的权重。

5.2 min_weight_fraction_leaf

　　有了权重以后，样本量就再也不是单纯地记录数目，而是受输入的权重影响了，所以这时候剪枝，就须要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意，基于权重的剪枝参数（例如min_weight_ fraction_leaf）将比不知道样本权重的标准（好比min_samples_leaf）更少偏向主导类。若是样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

6. 重要属性和接口

　　属性是在模型训练以后，可以调用查看的模型的各类性质。对决策树来讲，最重要的是feature_importances_，可以查看各个特征对模型的重要性。

　　sklearn中许多算法的接口都是类似的，好比说咱们以前已经用到的fit和score，几乎对每一个算法均可以使用。除了这两个接口以外，决策树最经常使用的接口还有apply和predict。apply中输入测试集返回每一个测试样本所在的叶子节点的索引，predict输入测试集返回每一个测试样本的标签。返回的内容一目了然而且很是容易，你们感兴趣能够本身下去试试看。

　　总结：

　　　　七个参数：Criterion，两个随机性相关的参数（random_state，splitter），四个剪枝参数（max_depth, ，min_sample_leaf，max_feature，min_impurity_decrease）

　　　　一个属性：feature_importances_

　　　　四个接口：fit，score，apply，predict

　　　　有了这些知识，基本上分类树的使用你们都可以掌握了，接下来再到实例中去磨练就好。