模型融合---LightGBM总结

时间 2019-11-11

标签模型融合 lightgbm 总结繁體版

原文原文链接

1、LightGBM简介：

所属：boosting迭代型、树类算法
适用范围：回归/分类/排序
LightGBM工具包：lightGBM英文文档 | lightGBM中文文档
论文连接
优势：
- 基于Histogram的决策树算法
- 带深度限制的Leaf-wise的叶子生长策略
- 直方图作差加速
- 直接支持类别特征(Categorical Feature)
- Cache命中率优化
- 基于直方图的稀疏特征优化
- 多线程优化

LightGBM提出的主要缘由是为了解决GBDT在海量数据遇到的问题，让GBDT能够更好更快地用于工业实践。html

2、XGboost缺点

XGboost的不足之处主要有：python

1.精确贪心算法

每轮迭代时，都须要遍历整个训练数据屡次。若是把整个训练数据装进内存则会限制训练数据的大小；若是不装进内存，反复地读写训练数据又会消耗很是大的时间。算法

优势：能够找到精确的划分条件apache

缺点：数组

计算量巨大；
内存占用巨大；
易产生过拟合

2.预排序方法（pre-sorted）

首先，空间消耗大。这样的算法须要保存数据的特征值，还保存了特征排序的结果（例如排序后的索引，为了后续快速的计算分割点），这里须要消耗训练数据两倍的内存。其次时间上也有较大的开销，在遍历每个分割点的时候，都须要进行分裂增益的计算，消耗的代价大。安全

优势：多线程

可使用多线程
能够加速精确贪心算法

缺点：效率低下，可能产生没必要要的叶结点机器学习

3.level-wise

生成决策树是level-wise级别的，也就是预先设置好树的深度以后，每一颗树都须要生长到设置的那个深度，这样有些树在某一次分裂以后效果甚至没有提高但仍然会继续划分树枝，而后再次划分....以后就是无用功了，耗时。ide

4.对cache优化不友好

在预排序后，特征对梯度的访问是一种随机访问，而且不一样的特征访问的顺序不同，没法对cache进行优化。同时，在每一层长树的时候，须要随机访问一个行索引到叶子索引的数组，而且不一样特征访问的顺序也不同，也会形成较大的cache miss。函数

3、LightGBM对Xgboost的优化

1.基于Histogram的决策树算法

思想：将连续的浮点特征离散成k个离散值，具体过程是首先肯定对于每个特征须要多少的桶bin，而后均分，将属于该桶的样本数据更新为bin的值，最后用直方图表示。在进行特征选择时，只须要根据直方图的离散值，遍历寻找最优的分割点。

　　使用直方图算法有不少优势。首先最明显就是内存消耗的下降，直方图算法不只不须要额外存储预排序的结果，并且能够只保存特征离散化后的值，而这个值通常用8位整型存储就足够了，内存消耗能够下降为原来的1/8。

　　而后在计算上的代价也大幅下降，预排序算法每遍历一个特征值就须要计算一次分裂的增益，而直方图算法只须要计算k次（k能够认为是常数），时间复杂度从O(#data*#feature)优化到O(k*#features)。

Histogram算法有几个须要注意的地方：

使用bin替代原始数据至关于增长了正则化；
使用bin意味着不少数据的细节特征被放弃了，类似的数据可能被划分到相同的桶中，这样的数据之间的差别就消失了；
bin数量选择决定了正则化的程度，bin越少惩罚越严重，欠拟合风险越高。
构建直方图时不须要对数据进行排序（比XGBoost快），由于预先设定了bin的范围；
直方图除了保存划分阈值和当前bin内样本数之外还保存了当前bin内全部样本的一阶梯度和（一阶梯度和的平方的均值等价于均方损失）；
阈值的选取是按照直方图从小到大遍历，使用了上面的一阶梯度和，目的是获得划分以后△loss最大的特征及阈值。

Histogram算法的优缺点：

Histogram算法并非完美的。因为特征被离散化后，找到的并非很精确的分割点，因此会对结果产生影响。但在实际的数据集上代表，离散化的分裂点对最终的精度影响并不大，甚至会好一些。缘由在于decision tree自己就是一个弱学习器，采用Histogram算法会起到正则化的效果，有效地防止模型的过拟合。
时间上的开销由原来的O(#data * #features)降到O(k * #features)。因为离散化，#bin远小于#data，所以时间上有很大的提高。

Histogram算法还能够进一步加速：

一个叶子节点的Histogram能够直接由父节点的Histogram和兄弟节点的Histogram作差获得。通常状况下，构造Histogram须要遍历该叶子上的全部数据，经过该方法，只须要遍历Histogram的k个捅。速度提高了一倍。

2.带深度限制的Leaf-wise的叶子生长策略

在Histogram算法之上，LightGBM进行进一步的优化。首先它抛弃了大多数GBDT工具使用的按层生长 (level-wise)的决策树生长策略，而使用了带有深度限制的按叶子生长 (leaf-wise)算法。

　　XGBoost采用的是按层生长level（depth）-wise生长策略，可以同时分裂同一层的叶子，从而进行多线程优化，不容易过拟合；但不加区分的对待同一层的叶子，带来了不少不必的开销。由于实际上不少叶子的分裂增益较低，不必进行搜索和分裂。

　　LightGBM采用leaf-wise生长策略，每次从当前全部叶子中找到分裂增益最大（通常也是数据量最大）的一个叶子，而后分裂，如此循环。所以同Level-wise相比，在分裂次数相同的状况下，Leaf-wise能够下降更多的偏差，获得更好的精度。Leaf-wise的缺点是可能会长出比较深的决策树，产生过拟合。所以LightGBM在Leaf-wise之上增长了一个最大深度的限制，在保证高效率的同时防止过拟合。

3.直方图作差加速

　　一个叶子的直方图能够由它的父亲节点的直方图与它兄弟的直方图作差获得。一般构造直方图，须要遍历该叶子上的全部数据，但直方图作差仅需遍历直方图的k个桶。利用这个方法，LightGBM能够在构造一个叶子的直方图后，能够用很是微小的代价获得它兄弟叶子的直方图，在速度上能够提高一倍。

4.直接支持类别特征

　　实际上大多数机器学习工具都没法直接支持类别特征，通常须要把类别特征，转化one-hot特征，下降了空间和时间的效率。而类别特征的使用是在实践中很经常使用的。基于这个考虑，LightGBM优化了对类别特征的支持，能够直接输入类别特征，不须要额外的0/1展开。并在决策树算法上增长了类别特征的决策规则。

　　one-hot编码是处理类别特征的一个通用方法，然而在树模型中，这可能并不必定是一个好的方法，尤为当类别特征中类别个数不少的状况下。主要的问题是：

可能没法在这个类别特征上进行切分（即浪费了这个特征）。使用one-hot编码的话，意味着在每个决策节点上只能使用one vs rest（例如是否是狗，是否是猫等）的切分方式。当类别值不少时，每一个类别上的数据可能会比较少，这时候切分会产生不平衡，这意味着切分增益也会很小（比较直观的理解是，不平衡的切分和不切分没有区别）。
会影响决策树的学习。由于就算能够在这个类别特征进行切分，也会把数据切分到不少零碎的小空间上，如图1左边所示。而决策树学习时利用的是统计信息，在这些数据量小的空间上，统计信息不许确，学习会变差。但若是使用下图右边的分裂方式，数据会被切分到两个比较大的空间，进一步的学习也会更好。

下图右边叶子节点的含义是X=A或者X=C放到左孩子，其他放到右孩子。

具体实现方法：

　　为了解决one-hot编码处理类别特征的不足。LightGBM采用了Many vs many的切分方式，实现了类别特征的最优切分。用LightGBM能够直接输入类别特征，并产生上图右边的效果。在1个k维的类别特征中寻找最优切分，朴素的枚举算法的复杂度是$O(2^k)$，而LightGBM采用了如On Grouping For Maximum Homogeneity的方法实现了$O(klogk)$的算法。

　　算法流程下图所示：在枚举分割点以前，先把直方图按每一个类别的均值进行排序；而后按照均值的结果依次枚举最优分割点。从下图能够看到，Sum(y)/Count(y)为类别的均值。固然，这个方法很容易过拟合，因此在LGBM中加入了不少对这个方法的约束和正则化。

离散特征创建直方图的过程：统计该特征下每一种离散值出现的次数，并从高到低排序，并过滤掉出现次数较少的特征值, 而后为每个特征值，创建一个bin容器, 对于在bin容器内出现次数较少的特征值直接过滤掉，不创建bin容器。
计算分裂阈值的过程：
- 先看该特征下划分出的bin容器的个数，若是bin容器的数量小于4，直接使用one vs other方式, 逐个扫描每个bin容器，找出最佳分裂点;
- 对于bin容器较多的状况, 先进行过滤，只让子集合较大的bin容器参加划分阈值计算, 对每个符合条件的bin容器进行公式计算(公式以下: 该bin容器下全部样本的一阶梯度之和/该bin容器下全部样本的二阶梯度之和 + 正则项(参数cat_smooth)，这里为何不是label的均值呢？其实上例中只是为了便于理解，只针对了学习一棵树且是回归问题的状况，这时候一阶导数是Y, 二阶导数是1)，获得一个值，根据该值对bin容器从小到大进行排序，而后分从左到右、从右到左进行搜索，获得最优分裂阈值。可是有一点，没有搜索全部的bin容器，而是设定了一个搜索bin容器数量的上限值，程序中设定是32，即参数max_num_cat。LightGBM中对离散特征实行的是many vs many 策略，这32个bin中最优划分的阈值的左边或者右边全部的bin容器就是一个many集合，而其余的bin容器就是另外一个many集合。
- 对于连续特征，划分阈值只有一个，对于离散值可能会有多个划分阈值，每个划分阈值对应着一个bin容器编号，当使用离散特征进行分裂时，只要数据样本对应的bin容器编号在这些阈值对应的bin集合之中，这条数据就加入分裂后的左子树，不然加入分裂后的右子树。

5.Cache命中率优化

6.基于直方图的稀疏特征优化

7.多线程优化

　　LightGBM原生支持并行学习，目前支持特征并行和数据并行的两种。特征并行的主要思想是在不一样机器在不一样的特征集合上分别寻找最优的分割点，而后在机器间同步最优的分割点。数据并行则是让不一样的机器先在本地构造直方图，而后进行全局的合并，最后在合并的直方图上面寻找最优分割点。

　　LightGBM针对这两种并行方法都作了优化，在特征并行算法中，经过在本地保存所有数据避免对数据切分结果的通讯；在数据并行中使用分散规约(Reduce scatter)把直方图合并的任务分摊到不一样的机器，下降通讯和计算，并利用直方图作差，进一步减小了一半的通讯量。

　　基于投票的数据并行则进一步优化数据并行中的通讯代价，使通讯代价变成常数级别。在数据量很大的时候，使用投票并行能够获得很是好的加速效果。

4、LightGBM原理

为了可以在不损害准确率的条件下加快GBDT模型的训练速度，lightGBM在传统的GBDT算法上加了两个技术：

单边梯度采样 Gradient-based One-Side Sampling (GOSS)：排除大部分小梯度的样本，仅用剩下的样本计算信息增益。
互斥稀疏特征绑定Exclusive Feature Bundling (EFB)：从减小特征角度

　　GBDT虽然没有数据权重，但每一个数据实例有不一样的梯度，根据计算信息增益的定义，梯度大的实例对信息增益有更大的影响，所以在下采样时，咱们应该尽可能保留梯度大的样本（预先设定阈值，或者最高百分位间），随机去掉梯度小的样本。咱们证实此措施在相同的采样率下比随机采样得到更准确的结果，尤为是在信息增益范围较大时。

　　捆绑互斥特征，也就是他们不多同时取非零值（也就是用一个合成特征代替）。一般应用中，虽然特征量比较多，可是因为特征空间十分稀疏，是否能够设计一种无损的方法来减小有效特征呢？特别在稀疏特征空间上，许多特征几乎是互斥的（例如许多特征不会同时为非零值，像one-hot），咱们能够捆绑互斥的特征。最后，咱们将捆绑问题归约到图着色问题，经过贪心算法求得近似解。

1. Gradient-based One-Side Sampling（GOSS）

　　GOSS在进行数据采样的时候只保留了梯度较大的数据，可是若是直接将全部梯度较小的数据都丢弃掉势必会影响数据的整体分布.为了抵消对数据分布的影响，计算信息增益的时候，GOSS对小梯度的数据引入常量乘数。GOSS首先根据数据的梯度绝对值排序，选取top a个实例。而后在剩余的数据中随机采样b个实例。接着计算信息增益时为采样出的小梯度数据乘以(1-a)/b，这样算法就会更关注训练不足的实例，而不会过多改变原数据集的分布。

首先根据数据的梯度将训练降序排序。
保留top a个数据实例，做为数据子集A。
对于剩下的数据的实例，随机采样得到大小为b的数据子集B。
最后咱们经过如下方程估计信息增益:

2. Exclusive Feature Bundling（EFB）

　　EFB是经过特征捆绑的方式减小特征维度（实际上是降维技术）的方式，来提高计算效率。一般被捆绑的特征都是互斥的（一个特征值为零,一个特征值不为零），这样两个特征捆绑起来才不会丢失信息。若是两个特征并非彻底互斥（部分状况下两个特征都是非零值），能够用一个指标对特征不互斥程度进行衡量，称之为冲突比率，当这个值较小时，咱们能够选择把不彻底互斥的两个特征捆绑，而不影响最后的精度。

EBF的算法步骤以下：

将特征按照非零值的个数进行排序
计算不一样特征之间的冲突比率
遍历每一个特征并尝试合并特征，使冲突比率最小化

　　高位的数据一般是稀疏的，这种稀疏性启发咱们设计一种无损地方法来减小特征的维度。特别的，稀疏特征空间中，许多特征是互斥的，例如他们从不一样时为非零值。咱们能够绑定互斥的特征为单一特征，经过仔细设计特征臊面算法，咱们从特征捆绑中构建了与单个特征相同的特征直方图。这种方式的间直方图时间复杂度从O(#data * #feature)降到O(#data * #bundle)，因为#bundle << # feature，咱们可以极大地加速GBDT的训练过程并且损失精度。

有两个问题：

怎么断定那些特征应该绑在一块儿（build bundled）?
怎么把特征绑为一个（merge feature）?

理论1：将特征分割为较小量的互斥特征群是NP难的

bundle（什么样的特征被绑定）算法流程：

创建一个图，每一个点表明特征，每一个边有权重，其权重和特征之间整体冲突相关。
按照降序排列图中的度数来排序特征。
检查排序以后的每一个特征，对他进行特征绑定或者创建新的绑定使得操做以后的整体冲突最小。

merging features(特征合并)：

　　如何合并同一个bundle的特征来下降训练时间复杂度。关键在于原始特征值能够从bundle中区分出来。鉴于直方图算法存储离散值而不是连续特征值，咱们经过将互斥特征放在不一样的箱中来构建bundle。这能够经过将偏移量添加到特征原始值中实现，例如，假设bundle中有两个特征，原始特征A取值[0, 10]，B取值[0, 20]。咱们添加偏移量10到B中，所以B取值[10, 30]。经过这种作法，就能够安全地将A、B特征合并，使用一个取值[0, 30]的特征取代AB。

　　EFB算法可以将许多互斥的特征变为低维稠密的特征，就可以有效的避免没必要要0值特征的计算。实际，经过用表记录数据中的非零值，来忽略零值特征，达到优化基础的直方图算法。经过扫描表中的数据，建直方图的时间复杂度将从O(#data)降到O(#non_zero_data)。固然，这种方法在构建树过程当中须要而额外的内存和计算开销来维持预特征表。咱们在lightGBM中将此优化做为基本函数，由于当bundles是稀疏的时候，这个优化与EFB不冲突（能够用于EFB）

5、LightGBM参数调优

下面几张表为重要参数的含义和如何应用

接下来是调参

下表对应了Faster Spread，better accuracy，over-fitting三种目的时，能够调整的参数

参考文献：

【1】LightGBM介绍及参数调优

【2】快的不要不要的lightGBM

【3】LightGBM——提高机器算法（图解+理论+安装方法+python代码）

【4】https://www.bilibili.com/video/av47496956?from=search&seid=11905257687121452350

【5】机器学习算法之LightGBM