机器学习排序算法：RankNet to LambdaRank to LambdaMART

时间 2019-11-05

标签机器学习排序算法 ranknet lambdarank lambdamart 繁體版

原文原文链接

使用机器学习排序算法LambdaMART有一段时间了，但一直没有真正弄清楚算法中的全部细节。html

学习过程当中细读了两篇不错的博文，推荐给你们：算法

梯度提高树(GBDT)原理小结网络

徐博From RankNet to LambdaRank to LambdaMART: An Overviewiphone

但通过一番搜寻以后发现，目前网上并无一篇透彻讲解该算法的文章，因此但愿这篇文章可以达到此目的。机器学习

本文主要参考微软研究院2010年发表的文章From RankNet to LambdaRank to LambdaMART: An Overview函数

1. 概述

RankNet、LambdaRank和LambdaMART是三个关系很是紧密的机器学习排序算法。简而言之，RankNet是最基础，基于神经网络的排序算法；而LambdaRank在RankNet的基础上修改了梯度的计算方式，也即加入了lambda梯度；LambdaMART结合了lambda梯度和MART（另称为GBDT，梯度提高树）。这三种算法在工业界中应用普遍，在BAT等国内大厂和微软谷歌等世界互联网巨头内部都有大量应用，还曾经赢得“Yahoo！Learning To Rank Challenge(Track 1)"的冠军。本人认为若是评选当今工业界中三种最重要的机器学习算法，以LambdaMART为表明的集成学习算法确定占有一席之地，另外两个分别是支持向量机和深度学习。学习

2. RankNet

2.1 算法基础定义优化

RankNet解决以下搜索排序问题：给定query集合，每一个query都对应着一个文档集合，如何对每一个query返回排序后的文档集合。能够想象这样的场景：某位高考生在得知本身的成绩后，准备报考志愿。据说最近西湖大学办得不错，因此就想到网上搜搜关于西湖大学的资料。他打开一个搜索引擎，输入“西湖大学”四个字，而后点击“搜索”，页面从上到下显示了10条搜索结果，他认为排在上面的确定比下面的相关，因此就开始从上往下一个个地浏览。因此RankNet的目标就是对全部query，都能将其返回的文档按照相关性进行排序。搜索引擎

RankNet网络将输入query的特征向量atom

P i j \equiv P (U i ⊳ U j) \equiv 1 1 + e - σ ( s i - s j )

这个几率实际上就是深度学习中常用的sigmoid函数，参数

S i j = ⎧⎩⎨ 1 0 - 1 文 档 i 比 文 档 j

定义

C = - P ¯¯¯¯ i j l o g P i j - (1 - P ¯¯¯¯ i j) l o g (1 - P i j

若是不太熟悉什么是交叉熵，能够参考宗成庆老师的《统计天然语言处理》2.2节“信息论基本概念”，里面将熵、联合熵、互信息、相对熵、交叉熵和困惑度等概念都讲得至关清楚。

结合以上多个公式，能够改写损失函数

C = 1 2 ( 1 - S i j ) σ ( s i - s j ) + l o g ( 1 + e - σ ( s i - s j

对于

C = l o g (1 + e - σ (s i - s j))

然而对于

C = l o g (1 + e - σ (s j - s i))

能够看出损失函数

分析损失函数

lim s i - s j \to \infty C = lim s i - s j \to \infty l o g (1 + e - σ (s i -

若是

lim s i - s j \to \infty C = lim s i - s j \to \infty l o g (1 + e - σ (s i -

利用神经网络对模型进行训练，目前最有效的方法就是反向传播算法。反向传播算法中最核心部分就是损失函数对模型参数的求导，而后可使用下面的公式对模型参数进行迭代更新：

w k \leftarrow w k - η \partial C \partial w k = w k - η ( \partial C \partial

损失函数

\partial C \partial s i = σ ( 1 2 ( 1 - S i j ) - 1 1 + e σ ( s

δ C = \sum k \partial C \partial w k δ w k = \sum k \partial C \partial w k

2.2 RankNet分解形式：加速RankNet训练过程

2.1节中定义的RankNet，对于每个文档对

对于给定的文档对

\partial C \partial w k = \partial C \partial s i \partial s i \partial w k +

其中：

λ i j = \partial C ( s i - s j ) \partial s i = σ ( 1 2 ( 1 - S i j

定义

δ w k = - η \sum (i, j) \in I (λ i j \partial s i \partial w k - λ

其中：

λ i = \sum j : {i, j} \in I λ i j - \sum j : {j, i} \in I λ i j

通俗地说，

δ w k = - η \sum {i, j} \in I (λ i j \partial s i \partial w k - λ

因而能够获得

2.3 模型训练过程示例

假设某个搜索系统中，文档用2维的特征向量表示。给定一个query下的三个文档向量分别为

初始化

根据以上初始值能够计算出

计算

更新网络权重:

使用更新后的权重从新计算三个文档的分数，分别为

3. 信息检索评分

信息检索研究者常用的排序质量评分指标有如下四种：

MRR(Mean Reciprocal Rank)，平均倒数排名

MAP(Mean Average Precision)，平均正确率均值

NDCG(Normalized Discounted Cumulative Gain)，归一化折损累积增益

ERR(Expected Reciprocal Rank)，预期倒数排名

其中，MRR和MAP只能对二级的相关性（排序等级：相关和不相关）进行评分，而NDCG和ERR则能够对多级的相关性（排序等级>2）进行评分。NDCG和ERR的另外一个优势是更关注排名靠前的文档，在计算分数时会给予排名靠前的文档更高的权重。可是这两种评分方式的缺点是函数不连续，不能进行求导，因此也就不能简单地将这两种评分方式加入到模型的损失函数中去。

3.1 MRR

对于一个查询

M R R (Q) = 1 | Q | \sum i = 1 | Q | 1 r a n k i

举个简单例子：

查询语句	查询结果	正确结果	排序位置	排序倒数
机器学习	快速排序，深度学习，并行计算	深度学习	2	1/2
苹果手机	小米手机，华为手机，iphone 7	iphone 7	3	1/3
小米移动电源	小米移动电源，华为充电器，苹果充电插头	小米移动电源	1	1/1

因此

3.2 MAP

假定信息需求

M A P (Q) = 1 | Q | \sum j = 1 | Q | 1 m j \sum k = 1

实际上有两种计算

若是对定义的公式不太理解，能够结合下面的例子进行理解。

查询1：机器学习		查询2：苹果手机
排序位置	是否相关	排序位置	是否相关
1	是	1	否
2	是	2	是
3	否	3	是
4	否	4	否
5	是	5	否
6	否	6	是
7	否	7	是

针对上面检索的结果，可计算出

3.3 NDCG

NDCG是基于前

N D C G (Q, k) = 1 | Q | \sum j = 1 | Q | Z j , k \sum

其中

D C G k = \sum m = 1 k 2 R ( j , m ) - 1 l o g ( 1 + m )

修改上面简单的例子进行辅助理解：

查询1：机器学习		查询2：苹果手机
排序位置	相关程度	排序位置	相关程度
1	3	1	2
2	2	2	2
3	3	3	3
4	0	4	1
5	1	5	2
6	2	6	3
7	2	7	1

对于查询1：机器学习:

D C G 7 = \sum m = 1 7 2 R ( j , m ) - 1 l o g ( 1 + m ) = 21.421516

查询1返回结果的最佳相关程度排序为：3,3,2,2,2,1,0，因此，

对于查询2：苹果手机:

D C G 7 = \sum m = 1 7 2 R ( j , m ) - 1 l o g ( 1 + m ) = 18.482089

查询2返回结果的最佳相关程度排序为：3,3,2,2,2,1,1，因此，

最后可得：

3.4 ERR

R (g) = 2 g - 1 2 g m a x , g \in { 0 , 1 , . . . , g m a x }

因而定义：

E R R = \sum r = 1 n 1 r \prod i = 1 r - 1 ( 1 - R i ) R r

展开公式以下：

E R R = R 1 + 1 2 ( 1 - R 1 ) R 2 + 1 3 ( 1 - R 1 ) ( 1 - R 2 ) R 3 + . .

举例来讲(

查询：机器学习
排序位置	相关程度
1	3
2	2
3	3
4	1

4. LambdaRank

4.1 为何须要LambdaRank

先看一张论文原文中的图，以下所示。这是一组用二元等级相关性进行排序的连接地址，其中浅灰色表明连接与query不相关，深蓝色表明连接与query相关。对于左边来讲，总的pairwise偏差为13，而右边总的pairwise偏差为11。可是大多数状况下咱们更指望能获得左边的结果。这说明最基本的pairwise偏差计算方式并不能很好地模拟用户对搜索引擎的指望。右边黑色箭头表明RankNet计算出的梯度大小，红色箭头是指望的梯度大小。NDCG和ERR在计算偏差时，排名越靠前权重越大，能够很好地解决RankNet计算偏差时的缺点。可是NDCG和ERR均是不可导的函数，如何加入到RankNet的梯度计算中去？

4.2 LambdaRank定义

RankNet中的

λ i j = \partial C ( s i - s j ) \partial s i = - σ 1 + e σ ( s

其中

另外还能够将

5. LambdaMART

5.1 MART

LambdaMART是MART和LambdaRank的结合，因此要学习LambdaMART首先得了解什么是MART。MART是Multiple Additive Regression Tree的简称，不少时候又称为GBDT（Gradient Boosting Decision Tree）。MART是一种集成学习算法，不一样于经典的集成学习算法Adaboost利用前一轮学习器的偏差来更新下一轮学习的样本权重，MART每次都拟合上一轮分类器产生的残差。举个例子便于理解，好比一我的的年龄是50岁，第一棵树拟合的结果是35岁，第一轮的残差为15岁；而后第二棵数拟合的结果是10岁，两棵树相加总的拟合结果是45岁，第二轮的残差为5岁；第三棵数拟合的结果为2岁，三棵树相加拟合的结果是47岁，第三轮的残差是3岁......只要如此不断地进行下去，拟合结果就能够达到50岁，拟合残差的过程就是训练数据的过程。

对于一个给定的数据集

S j = \sum i \in L (y i - μ L) 2 + \sum i \in R (y i - μ R) 2

其中

上面公式使用最小二乘法计算拟合偏差，因此经过上面方法获得的模型又称为最小二乘回归树。其实无论偏差的计算方式如何，咱们均可以拟合出相应的回归树，惟一的区别是梯度的计算不一样而已。

MART使用线性组合的方式将拟合的树结合起来，做为最后的输出：

F n (x) = \sum i = 1 N α i f i (x)

在这里咱们须要弄清楚为何拟合残差就能不断减小拟合偏差。假设拟合偏差

δ C \approx \partial C ( F n ) \partial F n δ F n

若是取

设标签向量

C = 1 2 ( F n - y ) 2

那么

5.2 逻辑回归+MART进行二分类

了解了MART以后，下面举一个MART实际应用的例子：使用MART和逻辑回归进行二分类。用于分类的样本

P + \equiv P (y = 1 | x)

P - \equiv P (y = - 1 | x)

用交叉熵表示损失函数：

L (y, F) = - y l o g (P +) - (1 - y) l o g (P -)

逻辑回归使用对数机率（属于正例几率/属于负例几率）进行建模，

F n (x) = 1 2 l o g ( P + P - )

P + = 1 1 + e - 2 σ F n ( x )

P - = 1 - P + = 1 1 + e 2 σ F n ( x )

将

L (y, F n) = l o g (1 + e - 2 y σ F n)

γ j m = a r g min γ \sum x i \in R j m log (1 + e - 2 σ y i (

上式可使用Newton-Raphson方法按照下面的公式进行迭代求解：

γ n + 1 = γ n - g ' ( γ n ) g '' ( γ n )

5.3 LambdaMART基本定义

LambdaMART基于MART，优化

λ i j = \partial C ( s i - s j ) \partial s i = - σ | Δ Z

λ i = \sum j : {i, j} \in I λ i j - \sum j : {j, i} \in I λ i j

为了简化表示：

\sum {i, j} ⇌ I λ i j = \sum j : {i, j} \in I λ i j - \sum j : {j,

因而咱们能够更新损失函数：

\partial C \partial s i = \sum j : { i , j } \in I - σ | Δ Z i j

其中，咱们定义：

ρ i j = 1 1 + e σ ( s i - s j ) = - λ i j σ | Δ

而后能够获得：

\partial 2 C \partial s 2 i = \sum { i , j } ⇌ I σ 2 | Δ Z i j

因此咱们能够用下面的公式计算第

γ k m = \sum x i \in R k m \partial C \partial s i \sum x i \in

因此总结LambdaMART算法以下：

6. 参考文献

1. Christopher J.C. Burges. From RankNet to LambdaRank to LambdaMART: An Overview. Microsoft Research Technical Report MSR-TR-010-82.

2. Chrisopher D.Manning, Prabhakar Raghavan, Hinrich Schutze著, 王斌译. Introduction to Information Retrieval, 8.4 有序检索结果的评价方法, 2017年10月北京第11次印刷.

3. Olivier Chapelle, Ya Zhang, Pierre Grinspan. Expected Recipocal Rank for Graded Relevance. CIKM 2009.