机器学习笔记8：XGBoost

时间 2019-11-06

标签机器学习笔记 xgboost 繁體版

原文原文链接

目录git

参考地址：
贪心学院:https://github.com/GreedyAIAcademy/Machine-Learninggithub

1 回顾一下决策树

学习XGBoost过程当中险些把以前决策数的知识也弄迷茫了,所以首先回顾一下决策树

算法

据信息熵来的,也就是信息熵大的字段会更靠近决策树的根节点
函数

林最重要的就是根据不一样的字段的前后决策顺序组成不一样的树。学习

2 XGBoost举例

说实话刚接触XGBoost算法的时候我就蒙了,仔细分析了例子以后就清晰了spa

2.1 问题和结果

请分析下图示例：
假设咱们不知道用户年龄的状况下,经过用户行为来预测用户的年龄
blog

,XGBoost的计算结果以下：
get

2.2 第一棵树的计算方法

19.25和57.2是怎么来的呢？
$ (13 + 14 + 15 + 35) / 4 = 19.25 $
$ (25 + 49 + 68 + 71 + 73) / 5 = 57.2$
为何要这么算？由于XGBoost算法就是一个号称"三个臭皮匠,顶个诸葛亮"的算法,其强悍之处在于多棵树计算结果的迭代,因此最初取平均值影响不大。
这里面还有一个残差(residual)的概念,残差 = 实际结果 - 预测结果
好比：Person1的Tree1残差为$13 - 19.25 = -6.25$it

2.3 第二棵树的计算方法

(https://img2018.cnblogs.com/blog/753880/201908/753880-20190802183318845-666594384.png)
这里要注意是第二棵决策树,并不是是第一棵树的一个节点。
第一棵决策树是按LikeGardening来分的,第二棵树是按PlaysVedioGames来分的。
第二棵树的预测结果是怎么算的？
$ 7.133 = (-8.2 + 13.8 + 15.8) / 3 $
$ -3.567 = (-6.25 -5.25 -4.25 -32.2 + 15.75 + 10.08) / 6 $
也就是第二棵树的预测结果是第一棵树残差的平均数。
最终的联合预测结果的计算方法：
好比：Person1的计算方法：
$ 15.683 = 19.25 + (-3.567) $
最新的残差的算法：
$ 2.683 = 15.683 - 13 $
从上面的例子中咱们能够看出,实际上问题是由预测年龄转变成了找到最佳的残差值。
这样多棵树就起到了联合学习的效果，残差也会逐渐逼近最终的真实年龄值。
这样作的好处就在于节省了很大的计算量，也所以XGBoost会火。io

Bagging：Leverages unstable base learners that are weak because of overfitting
Boosting: Leverage stable base learners that are weak because of underfitting

3 XGBoost公式推导

3.1 第一种理解公式

残差：
$y_{i,residual} = y_{i,true}-y_{i,predict}$
预测值：
$ y_{(i,k,predict)} = \frac{1}{m}\sum_{j}^{m} y_{(i,j,k-1)} , y_{(i,0,predict)}=y_{(i,true)} $
其中m就是i所在叶子节点所包含的记录数, 咱们求和的就是此叶子节点中每条记录的上一个棵树的预测值。
最终的结果就是把全部的预测值加起来就好了。

3.2 第二种理解公式

这样标达过于麻烦,所以咱们换一种简单的方法：
假设训练了K棵树,$f_{k}(x_{i})$为第i我的在第k棵树上的预测值(其实这个值就是上面例子中的残差而已),而训练完k棵树的最终预测值是：
\hat{y}{i} = \sum{k=1}^{K}f_{k}(x_{i})
有预测值并非咱们的目标，咱们的目标是方差最小，所以目标函数为：

第2节的例子，后面的公式推导就是循序渐进地代入就好了。
首先将目标函数展开，再封装用泰勒公式模型求导，找出极值点再带回到目标函数求得极值的值，把k个极值加起来做为得分就能够找到最佳的树的分割了。
(后面的部分太麻烦了,就不一一解释了)