机器学习-树模型理论（GDBT，xgboost，lightBoost，随机森林）

时间 2019-12-12

标签机器学习模型理论 gdbt xgboost lightboost 随机森林繁體版

原文原文链接

tree based ensemble algorithms

原始的Boost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，每一个样本都是一样的重要。在每一步的训练中，获得的模型，会给出每一个数据点的估计对错，根据判断的对错，在每一步的训练以后，会增长分错样本的权重，减小分类正确的样本的权重，若是在后续的每一步训练中，若是继续被分错，那么就会被严重的关注，也就是得到了一个比较高的权重。通过N次迭代以后，将会获得N个简单的分类器（base learner），而后将他们组装起来（能够进行加权，或者进行投票），获得一个最终的模型。

主要介绍如下几种ensemble的分类器（tree based algorithms）

xgboost

xgboost能自动利用cpu的多线程，并且适当改进了gradient boosting，加了剪枝，控制了模型的复杂程度
传统的GBDT算法以CART做为基分类器，xgboost还能够支持线性分类器，至关于带L1和L2的逻辑斯谛回归或者线性回归
传统的GBDT在优化的时候，使用的是一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶导数和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。
xgboost在代价函数中加入了正则项，用于控制模型的复杂度。正则项里面包括树的叶子节点的个数、每一个叶子节点上输出的score的L2模的平方和。（从Bias-variance tradeoff 的角度来讲，正则化下降了模型的variance，使获得的模型更加简单，防止过拟合，这是xgboost优于传统的GBDT的一个特征）
Shrinkage（缩减），至关于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，通常把eta设置得小一点，而后迭代次数设置得大一点。（sklearn中的GBDT的实现也有学习速率）
列抽样（column sampling),借鉴了随机森林的作法，支持列抽样能够下降过拟合，同时减小了计算量，这也是xgboost异于传统gbdt的一个特性，sklearn中已经实现行采样和列采样，一样xgboost也是能够实现的。
对缺失值的处理。对于样本有特征确实的状况下，xgboost能够自动学习它的分裂方向。
xgboost工具支持并行。xgboost的并行并非tree粒度的并行，xgboost也是须要一次迭代完成以后，才能进行下一次迭代的。（第t次迭代的代价函数包含了前面t-1次的预测值）。xgboost的并行是特征粒度上的。决策树的学习最耗时的步骤是就是对特征进行排序（由于要肯定最佳的分割点），xgboost在训练以前，预先对数据进行排序，而后保存成block结构，后面的迭代中重复的使用这个结构，大大的减小了计算量。这个结构也使并行成为可能。在进行节点分裂时，须要计算每一个特征的信息增益，最终选择增益最大的那个特征去分裂，那么各个特征的增益计算就能够开多线程计算。
可并行的近似直方图算法。树节点在进行分裂时，须要计算每一个特征的的每一个分裂点的信息增益，即用贪心法枚举全部的可能的分割点。当数据没法一次性载入内存或者在分布式的状况下，贪心的算法效率就会变得很低，因此xgboost还提出了一种，可并行的近似直方图算法，用于高效的生成候选的分割点。
xgboost的目标函数
xgboost 分裂节点时所采用的公式
这个公式形式上与ID3算法与CART算法是一致的，二者作差，获得某种增益。为了限制树的生长，咱们能够加入阈值，当增益大于阈值时才让节点分裂，上式中的gamma即为阈值，它是正则项里叶子节点数T的系数，因此xhboost在优化目标函数的同时至关于也作了预剪枝。
公式中的系数lambda，是正则项leaf score的L2模平方的系数，对leaf score作了平滑，也起到了防止过拟合的做用，这仍是传统GBDT里不具有的特性。html
总结下来就是二者的区别：
- xgboost里面的基学习器除了用tree(gbtree)，也可用线性分类器(gblinear)。而GBDT则特指梯度提高决策树算法。
- xgboost相对于普通gbm的实现，可能具备如下的一些优点：
- 显式地将树模型的复杂度做为正则项加在优化目标
- 公式推导里用到了二阶导数信息，而普通的GBDT只用到一阶
- 容许使用column(feature) sampling来防止过拟合，借鉴了Random Forest的思想。（sklearn里的gbm好像也有相似实现）
- 实现了一种分裂节点寻找的近似算法，用于加速和减少内存消耗。
- 节点分裂算法能自动利用特征的稀疏性。
- data事先排好序并以block的形式存储，利于并行计算
- penalty function Omega主要是对树的叶子数和叶子分数作惩罚，这点确保了树的简单性
- 支持分布式计算能够运行在MPI，YARN上，得益于底层支持容错的分布式通讯框架rabit。

The correct answer is marked in red. Please consider if this visually seems a reasonable fit to you. The general principle is we want both a simple and predictive model. The tradeoff between the two is also referred as bias-variance tradeoff in machine learning.

lightGBM：基于决策树算法的分布式梯度提高框架

lightGBM 与xgboost的区别：
- xgboost使用的是pre-sorted算法（对全部的特征都按照特征的数值进行预排序，在遍历分割点的时候用O(data)的代价函数找个一个特征的最好分割点，可以更加精确的找到数据的分割点。
- lightGBM 使用的是histogram算法，占用内存更低，数据分割的复杂度更低。
决策树生长策略上
- xgboost采用的是level-wise生长策略，可以同时分类同一层的叶子，从而进行多线程优化，不容易过拟合，可是不加区分的对待同一层的叶子，带来了不少没有必要的开销(有不少的叶子分裂增益较低，没有必要进行搜索和分裂)
- lightGBM采用的是leaf-wise的生长策略，每次从当前的叶子中找到分裂增益最大的（通常也是数据量最大）的一个叶子进行分裂，如此循环；可是生长出的决策树枝叶过多，产生过拟合，lightGBM在leaf-wise上增长了一个最大深度的限制，在保证高效率的同时防止过拟合。
- 另外一个巧妙的优化是histogram作差加速，一个容易观察到的现象：一个叶子的直方图能够由它的父节点的直方图与它兄弟的直方图作差获得。

GBDT(Gradient Boosting Decison Tree)

GBDT中使用的都是回归树，GBDT用来作回归预测，调整后也能够用于分类，设定阈值，大于阈值为正例，反之为负例，能够发现多种有区分性的特征以及特征组合。
GBDT是把全部树的结论累加起来作最终结论，GBDT的核心就在于，每一棵树学的是以前全部树结论和的残差，这个残差就是把一个加预测值后能获得真实值的累加量。
好比A的真实年龄是18岁，但第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里咱们把A的年龄设为6岁去学习，若是第二棵树真的能把A分到6岁的叶子节点，那累加两棵树的结论就是A的真实年龄；若是第二棵树的结论是5岁，则A仍然存在1岁的残差，第三棵树里A的年龄就变成1岁，继续学。 Boosting的最大好处在于，每一步的残差计算其实变相地增大了分错instance的权重，而已经分对的instance则都趋向于0。这样后面的树就能愈来愈专一那些前面被分错的instance。
用公式来表示提高树的部分原理 node
GBDT划分标准默认是friedman_mse能够查看sklearn 官方文档中GBDT的参数说明git
Gradient Boost与传统的Boost的区别是
每一次的计算是为了减小上一次的残差(residual)，而为了消除残差，咱们能够在残差减小的梯度(Gradient)方向上创建一个新的模型。
因此说，在Gradient Boost中，每一个新的模型的创建是为了使得以前模型的残差往梯度方向减小。
Shrinkage（缩减）的思想认为，每次走一小步逐渐逼近结果的效果，要比每次迈一大步很快逼近结果的方式更容易避免过拟合。
即它不彻底相信每一棵残差树，他认为每棵树只学到了真理的一部分，累加的时候只累加一小部分，每次经过多学几棵树弥补不足。
本质上，Shrinkage为每棵树设置了一个weight，累加时要乘以这个weight，但和Gradient并无关系。
The advantages of GBRT are:github
Natural handling of data of mixed type (= heterogeneous features)
能够处理不一样性质的属性，数值特征与category特征，
数值特征须要进行数据的预处理
Predictive power
Robustness to outliers in output space (via robust loss functions)算法

The disadvantages of GBRT are:多线程

Scalability, due to the sequential nature of boosting it can hardly be parallelized.
Boost是一个串行过程，很差并行化，并且计算复杂度高，同时不太适合高维稀疏特征。

随机森林

是随机的方式创建一个森林，森林里面有不少的决策树组成，随机森林的每一决策树质检是没有关联的。在获得随机森林以后，当有一个新的样本输进的时候，就让森林中的每一棵决策树进行判断，判断样本属于哪一类，而后看哪一类被选择最多，就预测这个样本为这一类。
随机采样
- 随机行采样，采用有放回的方式，也就是在采样获得的样本集合中，可能有重复的样本。
  假如输入的样本为N个，那么采样的样本也是N个。这使得在训练的时候，每棵树的输入的样本都不是所有的样本，使得相对不容易出现over-fitting。框架
- 随机列采样，从M个feature中，选择m个(m<<M)。
  对采样以后的数据使用彻底分裂的方式创建决策树，这样的决策树的某个叶子节点要么没法继续分裂，要么里面全部的样本都是指向的同一分类。
随机森林中一样有剪枝，限制决策树的最大深度，以及最小的样本分裂，最小的节点样本数目，样本分裂节点的信息增益或gini系数必须达到的阈值
随机森林用于分类的话，划分标准是entropy或者gini系数
随机森林用于回归的话，划分标准是mse(mean squared error)或者mae(mean absolute error)dom

Why is it called random then？
假如咱们的数据有1000行，30列，随机森林的算法中，有两个不一样水平的随机
At row level
- 每棵树随机抽取了样本数据的一部分，每棵树都是独立训练的，给出的预测结果也是独立的
At column level, feature random selection at node level of the decision tree
- 每棵树在分支的时候，只使用了部分特征进行熵或者基尼系数的计算，好比说咱们选择了3个特征进行分支，树的第一个分支的时候使用了第1，2，4个特征，而后计算这三个特征的指标（好比说Gini coefficients或者其余的一些指标来选择最佳的节点），这三个特征中某个特征用来分支，第二个分支的时候，重复就行这个操做，这个时候的特征就多是第7，9，10个特征，而后从新计算特征选择的指标，而后寻找其中的最佳的特征进行分支
  参考连接medium给出的解释，random forest的其中的做者指出的错误 https://medium.com/theboredhuman/random-forests-explained-intuitively-2cecb9e1a7b5

决策树

ID3 信息增益：熵（数据的不肯定性程度）的减小；一个属性的信息增益量越大，这个属性做为一棵树的根节点就能使这棵树更简洁。
信息增益=分裂前的熵 – 分裂后的熵
面对类别较少的离散数据时效果较好，但若是面对连续的数据（如体重、身高、年龄、距离等），或者每列数据没有明显的类别之分（最极端的例子的该列全部数据都独一无二），即每一个值对应一类样本
C4.5信息增益比：克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足（某个属性存在大量的不一样值，在划分时将每一个值分为一个结点）分布式
CART 使用基尼系数进行分类
基尼指数Gini(D)表示集合D的不肯定性，基尼指数Gini(D,A)表示经A＝a分割后集合D的不肯定性。基尼指数值越大，样本集合的不肯定性也就越大，这一点与熵类似。
分类与回归树（CART）:二叉树形式，分类时：根据Gini指数选择划分特征
回归时：Los为 平方损失函数，最小化均方偏差选择划分特征，切分点（值）将数据切分红两部分，用平方偏差最小的准则（最小二乘法）求解每一个单元上的最优输出值（每一个叶子节点上的预测值为全部样本的平均值）。

用选定的对（j,s）划分区域并决定相应的输出值，每一个叶子节点上的预测值为全部样本的平均值：
ide

能够参看该repository中的另外文章中介绍的回归树
决策树的生成一般使用 信息增益最大、信息增益比最大或基尼指数最小做为特征选择的准则。

[参考]：https://medium.com/theboredhuman/random-forests-explained-intuitively-2cecb9e1a7b5

机器学习-树模型理论（GDBT，xgboost，lightBoost，随机森林）

tree based ensemble algorithms

主要介绍如下几种ensemble的分类器（tree based algorithms）

xgboost

lightGBM： 基于决策树算法的分布式梯度提高框架

GBDT(Gradient Boosting Decison Tree)

随机森林

Why is it called random then？

决策树

lightGBM：基于决策树算法的分布式梯度提高框架