04-03 scikit-learn库之AdaBoost算法

更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:http://www.javashuo.com/article/p-vozphyqp-cm.htmlpython

scikit-learn库之AdaBoost算法

当咱们对Adaboost调参时,主要要对两部份内容调参,第一部分是对Adaboost的框架进行调参,第二部分是对弱学习器调参。本文主要介绍AdaBoost的两个模型AdaBoostClassifierAdaBoostRegressor,会详解介绍AdaBoostClassifier模型,而后会对比着讲解AdaBoostRegressor模型。算法

接下来将会讨论上述二者的区别,因为是从官方文档翻译而来,翻译会略有偏颇,有兴趣的也能够去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble网络

1、AdaBoostClassifier

1.1 使用场景

AdaBoostClassifier模型主要解决分类问题,而且它在scikit-learn库中使用了两种分类算法的实现,分别是SAMME和SAMME.R。数据结构

1.2 参数

  • base_estimator:弱分类器类型,object类型。理论上能够选择任何一个弱分类器,不过须要支持样本权重,通常用决策树或神经网络。若是algorithm='SAMME.R',弱分类器应该支持几率预测,即支持predict_proba()方法。若是为默认值,算法会选择一个最大深度为1的决策树。默认为None。
  • n_estimators:最大迭代次数,int类型。弱学习器的最大迭代次数,若是迭代次数过小,容易欠拟合;若是迭代次数太大,容易过拟合。默认为50。
  • learning_rate:权重缩减系数,float类型。这个参数是正则化项的参数\(\lambda\)。较小的\(\lambda\)须要更多的迭代次数,即learning_rate和n_estimators须要一块儿调参。默认为1。
  • algorithm:算法类型,str类型。该参数主要用来度量学习器的权重。默认为'SAMME.R'。
    • 'SAMME':使用样本集分类效果做为弱分类器权重
    • 'SAMME.R':使用样本集分类的预测几率大小做为弱分类器权重
  • random_state:随机数种子,int类型。使用后能够保证随机数不会随着时间的变化而变化。默认为None。

1.3 属性

  • estimators_:list类型。弱学习集合。
  • classes_:array类型。类别列表。
  • n_classes_:int类型。类别数。
  • estimator_weights_:array类型。每一个弱学习的权重。
  • estimator_errors_:array类型。每一个弱学习额分类偏差。
  • feature_importances_:array类型。返回特征重要度。

1.4 方法

  • decision_function(X):计算样本X的决策函数值。
  • fit(X,y):把数据放入模型中训练模型。
  • get_params([deep]):返回模型的参数,能够用于Pipeline中。
  • predict(X):预测样本X的分类类别。
  • predict_log_proba(X):返回样本X在各个类别上对应的对数几率。
  • predict_proba(X):返回样本X在各个类别上对应的几率。
  • score(X,y[,sample_weight]):基于报告决定系数\(R^2\)评估模型。
  • set_prams(**params):建立模型参数。
  • staged_decision_function(X):返回每一个阶段样本X的决策函数值。
  • staged_predict(X):返回每一个阶段样本X的预测值。
  • staged_predict_proba(X):返回每一个阶段样本X在各个类别上对应的几率。
  • staged_score(X,y[,sample_weight]):返回每一个阶段样本X的\(R^2\)分数。

2、AdaBoostRegressor

AdaBoostRegressor模型和AdaBoostClassfier模型参数上差很少,只是前者通常用来解决回归问题,后者用来解决分类问题,预测值处理方式不一样。而且AdaBoostRegressor模型在scikit-learn库中只是用了Adaboost.R2算法实现。框架

AdaBoostRegressor模型没有参数'algorithm',而是使用了loss参数,即偏差函数{'linear','square','exponential'}的选择。dom

相关文章
相关标签/搜索