深度 | 蚂蚁金服DASFAA论文带你深刻了解GBDT模型

小蚂蚁说算法

 

2018年5月21日,国际顶级数据库会议DASFAA 2018(International Conference on Database Systems for Advanced Applications)在澳大利亚黄金海岸举办。spring

 

本文是蚂蚁金服录用于DASFAA的论文Unpack Local Model Interpretation for GBDT(做者:方文静、周俊、李小龙、朱其立)的简要介绍。数据库

 

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,全部树的结论累加起来作最终答案。它在被提出之初就和SVM一块儿被认为是泛化能力(generalization)较强的算法,近些年更由于被用于搜索排序的机器学习模型而引发你们关注。浏览器

 

GBDT模型自被提出以来,一直在有监督的机器学习任务中扮演重要角色,在各类机器学习算法竞赛中数见不鲜,所以对其应用的算法业务中对模型结果解释的需求也日益增长。本文设计并解释了一种GBDT模型行之有效的局部解释性方案。机器学习

b89d89fe4cd809f58f96344e4c842648667ac719

 

引言学习

 

GBDT(Gradient Boosting Decision Tree)模型自被提出以来,一直在有监督的机器学习任务中扮演重要角色,在各类机器学习算法竞赛中数见不鲜。GBDT是一系列决策树弱分类器的集成,将全部决策树的分值相加得到最终预测结果,因为这种集成方法的本质,GBDT在众多问题中具备较优的表现,所以吸引了研究者们对算法进行不断优化,出现不一样的变式。树形模型虽然在诸多任务上取得比线性模型更好的效果,但线性模型的一大优点在于自然能提供特征重要性的评判,所以在一些须要模型解释的场景,树形模型的应用受到了局限。本文关注为GBDT模型及其各类变式,提供一种统一的局部解释方案,对每个预测样本能够给出各个特征的贡献度,从而对模型预测结果进行归因。优化

 

 

下文是对蚂蚁金服在DASFAA的论文Unpack Local Model Interpretation for GBDT的介绍,论文连接:设计

https://link.springer.com/content/pdf/10.1007%2F978-3-319-91458-9_48.pdfblog

请将连接复制至浏览器中打开查看。排序

 

 

问题说明:

 

模型解释分为两类,一类是全局的解释性,衡量特征在模型中起的总体做用,另外一类是局部的解释性,目的是对一个特定的预测条目,衡量该条样本预测分高的缘由。

 

两类解释具备较大区别,以线性模型的解释为例,对于进行了归一化处理后的特征而言,最终的模型权重绝对值即为全局的特征重要性,由于权值越大该特征对最终分值影响越大,而对于一个取得高分的具体预测实例而言,可能在全局最重要的特征上,其分值较小,在该条样本的得分计算上并没有多大贡献,所以对于线性模型单条样本的局部解释性,会使用权值乘以特征值来做为该维特征的贡献度,从而获得各个特征间的重要性排序。

相关文章
相关标签/搜索