Boosting Ensemble and GBDT Algorithm

时间 2020-07-27

标签 boosting ensemble gbdt algorithm 栏目 C&C++ 繁體版

原文原文链接

Boosting Ensemble: 机器学习中,Ensemble model除了Bagging之外，更经常使用的是Boosting。与Bagging不一样，Boosting中各个模型是串行的。其思想是，后面的model，要从前面models的预测中结果中，试图将错误纠正。下面两张图能够看出两者的异同：算法

在第一个模型训练以前，各个Training Examples出如今本次训练中的几率相同；训练后的模型，若是在某些数据的预测上出现错误，则这些数据点出如今下个模型中的几率将会被提高，反之预测正确的数据点的几率将会被下调。最终，再将各个模型的输出作合并，给出最终Ensemble模型的预测。该算法的关键点是去设定‘什么时候中止迭代’，由于无休止的纠错最终将致使Overfitting.机器学习

Gradient Boosting Decision Tree(GBDT): 该算法改版自Boosting Ensemble，每一个model采用的都是Decision Tree，同时融入了Gradient Descent的思想。首先，咱们想象在最基础的Boosting Ensemble中，当第一个模型训练后，获得一个预测值h₁(X)，而指望的输出output为Y，则两者的差值（残差：Residual）为：学习

R₁(X)=Y-h₁(X)spa

那若是，咱们可以构建一个模型model2，去输出R₁(X)，那么Model1与Model2的输出之和为Y：blog

Y=h₁(X)+R₁(X)ci

固然，拟合出R₁(X)是最理想的状况，但实际中却只能输出近似值r₁(X)，将其累加到第一个model的输出上，咱们就获得了model2的输出：it

h₂(X)=h₁(X)+r₁(X)io

这是咱们又获得了R₂(X)为Y与h₂(X)的差值。循环往复，最终的输出将会不断逼近Y。但，这和Gradient有什么关系呢？基础

该模型在第n个模型上输出的hypothesis是：model

h_n(X)=h_n-1(X)+r_n-1(X)

若是把残差Residual展开：

h_n(X)=h_n-1(X)+(y-h_n-1(X))

在Gradient Descent里面，咱们知道，Cost Function被定义为：

当m为1时，咱们很容易看出，h_n(X)的值是在h_n-1(X)的基础上，减去了一倍的梯度（learning rate α=1），因此该算法被冠上了Gradient的名字，不无道理哦。