02-25 scikit-learn库之决策树

[TOC] 更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:http://www.javashuo.com/article/p-vozphyqp-cm.htmlhtml

scikit-learn库之决策树

在scikit-learn库中决策树使用的CART算法,所以该决策树既能够解决回归问题又能够解决分类问题,即下面即将讲的DecisionTreeClassifierDecisionTreeRegressor两个模型。node

接下来将会讨论这二者的区别,因为是从官方文档翻译而来,翻译会略有偏颇,有兴趣的也能够去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.treepython

1、DecisionTreeClassifier

1.1 使用场景

DecisionTreeClassifier模型即CART算法实现的决策树,一般用于解决分类问题。算法

1.2 代码

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
iris = load_iris()
X = iris.data[:, [2, 3]]
y = iris.target
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X, y)
DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best')
cross_val_score(clf, iris.data, iris.target, cv=10)
array([1.        , 0.93333333, 1.        , 0.93333333, 0.93333333,
       0.86666667, 0.93333333, 1.        , 1.        , 1.        ])

1.3 参数详解

  • **criterion:**特征选择,str类型。criterion='gini'表示基尼指数;criterion='entropy'表示信息增益,推荐使用'gini'。默认为'gini'。
  • **splitter:**特征划分点选择,str类型。splitter='best'在特征的全部划分点中找出最优的划分点,适合小样本量;splitter='random'随机的在部分划分点中找到局部最优的划分点,适合大样本量。默认为'best'。
  • **max_depth:**最大深度,int类型。若是样本特征数较少可使用默认值,若是样本特征数较多通常用max_depty=10-100限制树的最大深度。默认为None。
  • **min_samples_split:**内部节点划分须要最少样本数,float类型。限定子树继续划分的条件,若是某节点的样本数少于min_samples_split,则会中止继续划分子树。若是样本数量过大,建议增大该值,不然建议使用默认值。默认为2。
  • **min_samples_leaf:**叶子节点最少样本数float类型。若是在某次划分叶子节点数目小于样本数,则会和兄弟节点一块儿剪枝。若是样本数量过大,建议增大该值,不然建议使用默认值。默认为1。
  • **min_weight_fraction_leaf:**叶子节点最小的样本权重和,float类型。该参数限制了叶子节点全部样本权重和的最小值,若是小于该值,则会和兄弟节点一块儿剪枝。若是样本有角度的缺失值,或者样本的分布误差较大,则能够考虑权重问题。默认为0。
  • **max_features:**划分的最大特征数,str、int、float类型。max_depth='log2'表示最多考虑$log_2n$个特征;max_depth={'sqrt','auto'}表示最多考虑$\sqrt\(个特征;max_depth=int类型,考虑\)|int类型|$个特征;max_depth=float类型,如0.3,则考虑$0.3n$个特征,其中$n$为样本总特征数。默认为None,样本特征数不大于50推荐使用默认值。
  • **random_state:**随机数种子,int类型。random_state=None,不一样时刻产生的随机数据是不一样的;random_state=int类型,相同随机数种子不一样时刻产生的随机数是相同的。默认为None。
  • **max_leaf_nodes:**最大叶子节点数,int类型。限制最大叶子节点数,能够防止树过深,所以能够防止过拟合。默认为None。
  • **min_impurity_decrease:**节点减少不纯度,float类型。若是某节点划分会致使不纯度的减小大于min_impurity_decrease,则中止该节点划分。默认为0。
  • **min_impurity_split:**节点划分最小不纯度,float类型。若是某节点的不纯度小于min_impurity_split,则中止该节点划分,即不生成叶子节点。默认为1e-7(0.0000001)。
  • **class_weight:**类别权重,dict类型或str类型。对于二元分类问题可使用class_weight={0:0.9,1:0.1},表示0类别权重为0.9,1类别权重为0.1,str类型即为'balanced',模型将根据训练集自动修改不一样类别的权重。默认为None。
  • **presort:**数据是否排序,bool类型。样本量较小,presort=True,即让样本数据排序,节点划分速度更快;样本量较大,presort=True,让样本排序反而会增长训练模型的时间。一般使用默认值。默认值为False。

1.4 属性

  • **classes_:**array类型。样本的类别标签列表。
  • **max_features_:**int类型。最大的特征的推断值。
  • **n_classes_:**int类型。fit以后训练集的类别数量。
  • **n_features_:**int类型。fit以后训练集的特征数。
  • **n_outputs_:**int类型。fit以后训练集的输出数量。
  • **tree_:**Tree object类型。返回树结构对象地址。

1.5 方法

  • **apply(X[, check_input]):**返回每一个样本预测的叶子节点索引。
  • **decision_path(X[, check_input]):**返回样本X在树中的决策路径。
  • **fit(X,y):**把数据放入模型中训练模型。
  • **get_params([deep]):**返回模型的参数,能够用于Pipeline中。
  • **predict(X):**预测样本X的分类类别。
  • **predict_log_proba(X):**返回样本X在各个类别上对应的对数几率。
  • **predict_proba(X):**返回样本X在各个类别上对应的几率。
  • **score(X,y[,sample_weight]):**基于报告决定系数$R^2$评估模型。
  • **set_prams(**params):**建立模型参数。

2、DecisionTreeRegressor

DecisionTreeRegressor即CART回归树,它与DecisionTreeClassifier模型的区别在于criterion特征选择标准与分类树不一样,它能够选择'mse'和'mae',前者是均方偏差,后者是绝对值偏差,通常而言'mse'比'mae'更准确。数据结构

相关文章
相关标签/搜索