随机森林RF、XGBoost、GBDT和LightGBM的原理和区别

时间 2019-11-18

标签随机森林 xgboost gbdt lightgbm 原理区别繁體版

原文原文链接

目录html

一、基本知识点介绍

RandomForest、XGBoost、GBDT和LightGBM都属于集成学习。算法
集成学习经过构建并结合多个分类器来完成学习任务，也称为多分类系统，集成学习的目的是经过结合多个机器学习分类器的预测结果来改善基本学习器的泛化能力和鲁棒性。api
集成学习方法大体分为两类：多线程
- 基本学习器之间存在强依赖关系、必须串行生成的序列化方法，即Boosting提高方法。框架
- 基本学习器之间不存在强依赖关系、可同时生成的并行化方法，即Bagging方法。dom

二、各个算法原理

2.1 随机森林 -- RandomForest

RF原理：RF是Bagging的扩展变体，它在以决策树为基础学习器构建Bagging集成的基础上，进一步在决策树的训练过程当中引入了随机特征选择，其流程大概分为四个步骤：机器学习
1. 随机选择样本（放回抽样）。函数
2. 随机选择特征属性。性能
3. 构建决策树。学习
4. 随机森林投票（平均）。

所以防止过拟合能力更强，下降方差。

Bagging，即套袋法，算法过程以下：
1. 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本，共进行k轮抽取，获得k个训练集。
2. 每次使用一个训练集获得一个模型，k个训练集共获得k个模型。（模型能够根据具体问题具体选取，如决策树，SVM，感知机。）
3. 对于分类问题：将上面获得的k个模型采用投票的方式获得分类结果；
```
对于回归问题：计算上述模型的均值做为最后的结果。（由于全部模型的重要性是相同的）
```
RF和Bagging对比： RF的起始性能较差，特别当只有一个基学习器时，随着学习器数目增多，随机森林一般会收敛到更低的泛化偏差。随机森林的训练效率也会高于Bagging，由于在单个决策树的构建中，Bagging使用的是‘肯定性’特征数，在选择特征划分结点时，要对全部的特征进行考虑，而随机森林使用的是‘随机性’特征数，只需考虑特征的子集。

2.2 XGBoost算法

XGBoost原理：XGBoost属于集成学习Boosting，是在GBDT的基础上对Boosting算法进行的改进，并加入了模型复杂度的正则项。GBDT是用模型在数据上的负梯度做为残差的近似值，从而拟合残差。XGBoost也是拟合数据残差，并用泰勒展开式对模型损失残差的近似，同时在损失函数上添加了正则化项。

\[Obj^{t} = \sum_{i=1}^{n} L(y_{i}, \hat{y}_{i}^{(t-1)} + f_{t}(x_{i})) + \Omega (f_{t}) + constant\]

其中\(\sum_{i=1}^{n} L(y_{i}, \hat{y}_{i}^{(t-1)})\)为损失函数，红色方框为正则项，包括L一、L2；红色圆圈为常数项。

L1正则化项：\[L(\omega) = \frac{1}{N} \sum_{i=1}^{N} (f(x_{i}) - y_{i})^{2} + \frac{\lambda}{2} ||\omega||^{1}\]
L2正则化项：\[L(\omega) = \frac{1}{N} \sum_{i=1}^{N} (f(x_{i}) - y_{i})^{2} + \frac{\lambda}{2} ||\omega||^{2}\]
XGBoost与GBDT算法的区别：
- 传统的GBDT在优化的时候只用到了一阶导数信息，而XGBoost则对代价函数进行了二阶泰勒展开，获得一阶和二阶导数，而且XGBoost在代价函数中加入了正则项，用于控制模型的复杂度。
- 另外XGBoost还支持线性分类器，经过在代价函数中加入正则项，下降了模型的方差，使学习出来的模型更加简单，避免过拟合。
GBDT的基本原理是Boosting里面的boosting tree（提高树），并使用gradient boost。其关键是利用损失函数的负梯度方向在当前模型的值做为残差的近似值，进而拟合一颗CART回归树（classification and regression tree）。

2.3 GBDT算法（Gradient Boosting Decision Tree）

GBDT算法原理：指经过在残差减少的梯度方向创建boosting tree（提高树），即gradient boosting tree（梯度提高树）。每次创建新模型都是为了使以前模型的残差往梯度方向降低。

\[r_{ti} = -[\frac{\partial L(y_{i}, f(x_{i}))}{\partial f(x_{i})}]_{f(x)=f_{t-1}(x)}\]

\[c_{tj} = arg \ \min\limits_{c} \sum\limits_{x_{i} \in R_{tj}} L(y_{i}, f_{t-1}(x_{i}) + c)\]

GBDT缺点：GBDT会累加全部树的结果，此过程没法经过分类完成，由于GBDT须要按照损失函数的梯度近似地拟合残差，这样拟合的是连续数据，所以只能是CART回归树，而不能是分类树。

2.4 LightGBM提高学习模型

lightGBM，它是微软出的新的boosting框架，基本原理与XGBoost同样，使用基于学习算法的决策树，只是在框架上作了一优化（重点在模型的训练速度的优化）。
直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。在遍历数据的时候，根据离散化后的值做为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了须要的统计量，而后根据直方图的离散值，遍历寻找最优的分割点。
lightGBM与XGBoost的区别：
- xgboost采用的是level-wise的分裂策略，而lightGBM采用了leaf-wise的策略。
  - level-wise：指对每一层全部节点作无差异分裂，可能有些节点的增益很是小，带来了不必的开销。
  - leaf-wise：指在当前全部叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行，容易出现过拟合，所以须要作最大深度限制，从而避免过拟合。
- lightGBM使用了基于histogram（直方图）的决策树算法，而XGBoost使用了exact算法（须要提早预排序）。
  - 能减小内存消耗(#data* #features * 1Bytes)，下降计算代价，由于其只须要保存特征离散化以后的值。
  - 而XGBoost使用exact算法，内存消耗为(2 * #data * #features* 4Bytes)，由于XGBoost既要保存原始feature的值，也要保存这个值的顺序索引。
  - XGBoost的预排序算法在选择好分裂特征计算分裂受益时，须要遍历全部样本的特征值，时间复杂度为(#data)，与数据量成正比。而lightGBM的直方图只须要遍历分区的直方桶便可，时间复杂度为(#bin)。
- lightGBM的直方图还能作减差加速做用。
  - 一个子节点的直方图能够经过父节点的直方图减去兄弟节点的直方图便可获得，从而实现加速。
- lightGBM支持直接输入类别categorical的特征feature。
  - 在对离散特征分裂时，每一个取值都看成一个桶，分裂时的增益为“是否属于某个类别category”的gain。相似与one-hot编码。
- lightGBM实现可多线程优化。（即可以在同一时间执行多个线程，提高总体性能）
- lightGBM作了并行处理。
  - feature parallel（特征并行处理）：通常的feature parallel就是对数据作垂直分割（partiion data vertically，就是对属性分割），而后将分割后的数据分散到各个worker上，各个workers计算其拥有的数据的best splits point, 以后再汇总获得全局最优分割点。lightgbm的作法是每一个worker都拥有全部数据，再分割。——我也没懂
  - data parallel（数据并行处理）：传统的data parallel是将对数据集进行划分，也叫平行分割(partion data horizontally)，分散到各个workers上以后，workers对获得的数据作直方图，汇总各个workers的直方图获得全局的直方图。 lightgbm的作法是使用”Reduce Scatter“机制，不汇总全部直方图，只汇总不一样worker的不一样feature的直方图(原理？)，在这个汇总的直方图上作split，最后同步。

参考：
一、牛人：https://blog.csdn.net/zwqjoy/article/details/82150528

二、周志华《机器学习》

三、刘建平GBDT：http://www.javashuo.com/article/p-coowgizi-dv.html

四、大牛XGBoost：http://www.javashuo.com/article/p-wdqpjpms-hq.html