XgBoost推导与总结

时间 2019-12-13

标签 xgboost 推导总结繁體版

原文原文链接

一。机器学习算法中GBDT和XGBOOST的区别有哪些？（转自知乎https://www.zhihu.com/question/41354392/answer/98658997）html

xgboost相比传统gbdt有何不一样？xgboost为何快？xgboost如何支持并行？

传统GBDT以CART做为基分类器，xgboost还支持线性分类器，这个时候xgboost至关于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。
xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每一个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来说，正则项下降了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
Shrinkage（缩减），至关于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，通常把eta设置得小一点，而后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）
列抽样（column subsampling）。xgboost借鉴了随机森林的作法，支持列抽样，不只能下降过拟合，还能减小计算，这也是xgboost异于传统gbdt的一个特性。

对缺失值的处理。对于特征的值有缺失的样本，xgboost能够自动学习出它的分裂方向。
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。咱们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（由于要肯定最佳分割点），xgboost在训练以前，预先对数据进行了排序，而后保存为block结构，后面的迭代中重复地使用这个结构，大大减少计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，须要计算每一个特征的增益，最终选增益最大的那个特征去作分裂，那么各个特征的增益计算就能够开多线程进行。

可并行的近似直方图算法。树节点在进行分裂时，咱们须要计算每一个特征的每一个分割点对应的增益，即用贪心法枚举全部可能的分割点。当数据没法一次载入内存或者在分布式状况下，贪心算法效率就会变得很低，因此xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点

2、xgboost参数详解

官方参数介绍看这里：
Parameters (official guide)node

General Parameters（常规参数）
1.booster [default=gbtree]：选择基分类器，gbtree: tree-based models/gblinear: linear models
2.silent [default=0]:设置成1则没有运行信息输出，最好是设置为0.
3.nthread [default to maximum number of threads available if not set]：线程数python

Booster Parameters（模型参数）
1.eta [default=0.3]:shrinkage参数，用于更新叶子节点权重时，乘以该系数，避免步长过大。参数值越大，越可能没法收敛。把学习率 eta 设置的小一些，小学习率可使得后面的学习更加仔细。
2.min_child_weight [default=1]:这个参数默认是 1，是每一个叶子里面 h 的和至少是多少，对正负样本不均衡时的 0-1 分类而言，假设 h 在 0.01 附近，min_child_weight 为 1 意味着叶子节点中最少须要包含 100 个样本。这个参数很是影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。
3.max_depth [default=6]: 每颗树的最大深度，树高越深，越容易过拟合。
4.max_leaf_nodes:最大叶结点数，与max_depth做用有点重合。
5.gamma [default=0]：后剪枝时，用于控制是否后剪枝的参数。
6.max_delta_step [default=0]：这个参数在更新步骤中起做用，若是取0表示没有约束，若是取正值则使得更新步骤更加保守。能够防止作太大的更新步子，使更新更加平缓。
7.subsample [default=1]：样本随机采样，较低的值使得算法更加保守，防止过拟合，可是过小的值也会形成欠拟合。
8.colsample_bytree [default=1]：列采样，对每棵树的生成用的特征进行列采样.通常设置为： 0.5-1
9.lambda [default=1]：控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。
10.alpha [default=0]:控制模型复杂程度的权重值的 L1 正则项参数，参数值越大，模型越不容易过拟合。
11.scale_pos_weight [default=1]：若是取值大于0的话，在类别样本不平衡的状况下有助于快速收敛。面试

Learning Task Parameters（学习任务参数）
1.objective [default=reg:linear]：定义最小化损失函数类型，经常使用参数：
binary:logistic –logistic regression for binary classification, returns predicted probability (not class)
multi:softmax –multiclass classification using the softmax objective, returns predicted class (not probabilities)
you also need to set an additional num_class (number of classes) parameter defining the number of unique classes
multi:softprob –same as softmax, but returns predicted probability of each data point belonging to each class.
2.eval_metric [ default according to objective ]：
The metric to be used for validation data.
The default values are rmse for regression and error for classification.
Typical values are:
rmse – root mean square error
mae – mean absolute error
logloss – negative log-likelihood
error – Binary classification error rate (0.5 threshold)
merror – Multiclass classification error rate
mlogloss – Multiclass logloss
auc: Area under the curve
3.seed [default=0]：
The random number seed. 随机种子，用于产生可复现的结果
Can be used for generating reproducible results and also for parameter tuning.算法

注意: python sklearn style参数名会有所变化
eta –> learning_rate
lambda –> reg_lambda
alpha –> reg_alpha多线程

三。推导过程dom

1.如下内容转自http://www.52cs.org/?p=429，陈天奇大牛的解释。机器学习

2. Boosted Tree的若干同义词
说到这里可能有人会问，为何我没有听过这个名字。这是由于Boosted Tree有各类马甲，好比GBDT, GBRT (gradient boosted regression tree)，MART $^{1}$ 分布式

3. 有监督学习算法的逻辑组成
要讲boosted tree，要先从有监督学习讲起。在有监督学习里面有几个逻辑上的重要组成部件 $^{3}$ ide

i. 模型和参数
模型指给定输入 $x_{i}$

ii. 目标函数：损失 + 正则
模型和参数自己指定了给定输入咱们如何作预测，可是没有告诉咱们如何去寻找一个比较好的参数，这个时候就须要目标函数登场了。通常的目标函数包含下面两项

常见的偏差函数有 $L = \sum_{i}^{n} l (y_{i}, {\hat{y}}_{i})$

iii. 优化算法
讲了这么多有监督学习的基本概念，为何要讲这些呢？是由于这几部分包含了机器学习的主要成分，也是机器学习工具设计中划分模块比较有效的办法。其实这几部分以外，还有一个优化算法，就是给定目标函数以后怎么学的问题。之因此我没有讲优化算法，是由于这是你们每每比较熟悉的“机器学习的部分”。而有时候咱们每每只知道“优化算法”，而没有仔细考虑目标函数的设计的问题，比较常见的例子如决策树的学习，你们知道的算法是每一步去优化gini entropy，而后剪枝，可是没有考虑到后面的目标是什么。

4. Boosted Tree
i. 基学习器：分类和回归树（CART）
话题回到boosted tree，咱们也是从这几个方面开始讲，首先讲模型。Boosted tree 最基本的组成部分叫作回归树(regression tree)，也叫作CART $^{5}$

上面就是一个CART的例子。CART会把输入根据输入的属性分配到各个叶子节点，而每一个叶子节点上面都会对应一个实数分数。上面的例子是一个预测一我的是否会喜欢电脑游戏的 CART，你能够把叶子的分数理解为有多可能这我的喜欢电脑游戏。有人可能会问它和decision tree的关系，其实咱们能够简单地把它理解为decision tree的一个扩展。从简单的类标到分数以后，咱们能够作不少事情，如几率预测，排序。

ii. Tree Ensemble
一个CART每每过于简单没法有效地预测，所以一个更增强力的模型叫作tree ensemble。

在上面的例子中，咱们用两棵树来进行预测。咱们对于每一个样本的预测结果就是每棵树预测分数的和。到这里，咱们的模型就介绍完毕了。如今问题来了，咱们常见的随机森林和boosted tree和tree ensemble有什么关系呢？若是你仔细的思考，你会发现RF和boosted tree的模型都是tree ensemble，只是构造（学习）模型参数的方法不一样。第二个问题：在这个模型中的“参数”是什么。在tree ensemble中，参数对应了树的结构，以及每一个叶子节点上面的预测分数。

最后一个问题固然是如何学习这些参数。在这一部分，答案可能千奇百怪，可是最标准的答案始终是一个：定义合理的目标函数，而后去尝试优化这个目标函数。在这里我要多说一句，由于决策树学习每每充满了heuristic。如先优化吉尼系数，而后再剪枝啦，限制最大深度，等等。其实这些heuristic的背后每每隐含了一个目标函数，而理解目标函数自己也有利于咱们设计学习算法，这个会在后面具体展开。
对于tree ensemble，咱们能够比较严格的把咱们的模型写成是：

${\hat{y}}_{i} = \sum_{k = 1}^{K} f_{k} (x_{i}), f_{k} \in F$

其中每一个 $f$

$O b j (Θ) = \sum_{i}^{n} l (y_{i}, {\hat{y}}_{i}) + \sum_{k = 1}^{K} Ω (f_{k})$

iii. 模型学习：additive training
其中第一部分是训练偏差，也就是你们相对比较熟悉的如平方偏差, logistic loss等。而第二部分是每棵树的复杂度的和。这个在后面会继续讲到。由于如今咱们的参数能够认为是在一个函数空间里面，咱们不能采用传统的如SGD之类的算法来学习咱们的模型，所以咱们会采用一种叫作additive training的方式（另外，在我我的的理解里面 $^{7}$

如今还剩下一个问题，咱们如何选择每一轮加入什么 $f$

iv. 树的复杂度
到目前为止咱们讨论了目标函数中训练偏差的部分。接下来咱们讨论如何定义树的复杂度。咱们先对于f的定义作一下细化，把树拆分红结构部分 $q$

v. 关键步骤
接下来是最关键的一步 $^{11}$

这一个目标包含了 $T$

$G_{j} = \sum_{i \in I_{j}} g_{i} H_{j} = \sum_{i \in I_{j}} h_{i}$

那么这个目标函数能够进一步改写成以下的形式，假设咱们已经知道树的结构 $q$

$O b j^{(t)} = \sum_{j = 1}^{T} [(\sum_{i \in I_{j}} g_{i}) w_{j} + \frac{1}{2} (\sum_{i \in I_{j}} h_{i} + λ) w_{j}^{2}] + γ T = \sum_{j = 1}^{T} [G_{j} w_{j} + \frac{1}{2} (H_{j} + λ) w_{j}^{2}] + γ T$

这两个的结果对应以下，左边是最好的 $w$

$w_{j}^{*} = - \frac{G_{j}}{H_{j} + λ} O b j = - \frac{1}{2} \sum_{j = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T$

vi. 打分函数计算举例
Obj表明了当咱们指定一个树的结构的时候，咱们在目标上面最多减小多少。咱们能够把它叫作结构分数(structure score)。你能够认为这个就是相似吉尼系数同样更加通常的对于树结构进行打分的函数。下面是一个具体的打分函数计算的例子

vii. 枚举全部不一样树结构的贪心法
因此咱们的算法也很简单，咱们不断地枚举不一样树的结构，利用这个打分函数来寻找出一个最优结构的树，加入到咱们的模型中，再重复这样的操做。不过枚举全部树结构这个操做不太可行，因此经常使用的方法是贪心法，每一次尝试去对已有的叶子加入一个分割。对于一个具体的分割方案，咱们能够得到的增益能够由以下公式计算


对于每次扩展，咱们仍是要枚举全部可能的分割方案，如何高效地枚举全部的分割呢？我假设咱们要枚举全部 $x < a$

观察这个目标函数，你们会发现第二个值得注意的事情就是引入分割不必定会使得状况变好，由于咱们有一个引入新叶子的惩罚项。优化这个目标对应了树的剪枝，当引入的分割带来的增益小于一个阀值的时候，咱们能够剪掉这个分割。你们能够发现，当咱们正式地推导目标的时候，像计算分数和剪枝这样的策略都会天然地出现，而再也不是一种由于heuristic而进行的操做了。

讲到这里文章进入了尾声，虽然有些长，但愿对你们有所帮助，这篇文章介绍了如何经过目标函数优化的方法比较严格地推导出boosted tree的学习。由于有这样通常的推导，获得的算法能够直接应用到回归，分类排序等各个应用场景中去。

寻找分裂结点的候选集
一、暴力枚举

二、近似方法，近似方法经过特征的分布，按照百分比肯定一组候选分裂点，经过遍历全部的候选分裂点来找到最佳分裂点。
两种策略：全局策略和局部策略。在全局策略中，对每个特征肯定一个全局的候选分裂点集合，就再也不改变；而在局部策略中，每一次分裂都要重选一次分裂点。前者须要较大的分裂集合，后者能够小一点。对比补充候选集策略与分裂点数目对模型的影响。全局策略须要更细的分裂点才能和局部策略差很少

三、Weighted Quantile Sketch

近似算法的主要思想就是将每一个特征的值划分范围，而不是暴力枚举，在划分的时候是经过特征值分布密度的面积来划分的，经过构建直方图来计算面试，尽可能使得划分以后的每一个部分面积差很少。