Learning to rank总结

时间 2021-01-06

原文原文链接

一、Ranknet

在使用搜索引擎的过程中，对于某一Query(或关键字)，搜索引擎会找出许多与Query相关的URL，然后根据每个URL的特征向量对该URL与主题的相关性进行打分并决定最终URL的排序，其流程如下：

排序的好坏完全取决于模型的输出，而模型又由其参数决定，因而问题转换成了如何利用带label的训练数据去获得最优的模型参数w。Ranknet提供了一种基于Pairwise的训练方法。

1、Cost function

预测相关性概率

对于任意一个URL对(Ui,Uj)，模型输出的score分别为si和sj，那么根据模型的预测，Ui比Uj与Query更相关的概率为 $P_{i j} = P (U_{i} > U_{j}) = \frac{1}{1 + e^{- σ (s_{i} - s_{j})}}$ ，其中 $σ$ 是个参数。

真实相关性概率

定义真实相关性概率为 $\bar{P_{i j}} = \frac{1}{2} (1 + S_{i j})$ ，对于训练数据中的Ui和Uj，它们都包含有一个与Query相关性的真实label，如果Ui比Uj更相关，那么Sij=1；如果Ui不如Uj相关，那么Sij=−1；如果Ui、Uj与Query的相关程度相同，那么Sij=0。

代价函数定义

$C (\bar{P_{i j}}, P_{i j})$

$= - \sum_{U_{i} > U_{j}, U_{i} < U_{j}, U_{i} = U_{j}} \bar{P_{i j}} l o g P_{i j}$

$= - \bar{P_{i j}} l o g P_{i j} - (1 - \bar{P_{i j}}) l o g (1 - P_{i j}) - \frac{1}{2} l o g \frac{1}{2}$

$= - \bar{P_{i j}} l o g P_{i j} - (1 - \bar{P_{i j}}) l o g (1 - P_{i j})$
化简如下：

下图展示了

C_{i j}

随

\bar{P_{i j}} 、 P_{i j}

的变化情况：

图中t表示

s_{i} - s_{j}

，可以看到当

S_{i j} = 1

时，模型预测的

s_{i} 比 s_{j}

越大，其代价越小；

S_{i j} = - 1

时，

s_{i}

比

s_{j}

越小，代价越小；

S_{i j} = 0

时，代价的最小值在

s_{i}

与

s_{j}

相等处取得。该代价函数有以下特点：
1)当两个相关性不同的文档算出来的模型分数相同时，损失函数的值大于0，仍会对这对pair做惩罚，使他们的排序位置区分开
2)损失函数是一个类线性函数，可以有效减少异常样本数据对模型的影响，因此具有鲁棒性

总代价

$C = \sum_{(i, j) \in I} C_{i j}$ ，I表示所有URL pair的集合，对于 $(i, j) \in I$ 的pair，i>j，即 $S_{i j} = 1$ 。

2、梯度下降更新模型参数W

$w_{k} := w_{k} - α \frac{d C}{d w_{k}}$

$\frac{d C}{d w_{k}} = \sum_{(i, j) \in I} (\frac{d c_{i j}}{d s_{i}} \frac{d s_{i}}{d w_{k}} + \frac{d c_{i j}}{d s_{j}} \frac{d s_{j}}{d w_{k}})$

$\frac{d C_{i j}}{d s_{i}} = σ (\frac{1}{2} (1 - s_{i j}) - \frac{1}{1 + e^{σ (s_{i} - s_{j})}}) = - \frac{d C_{i j}}{d s_{j}} = λ_{i j}$

$\frac{d C}{d w_{k}} = \sum_{(i, j) \in I} (λ_{i j} \frac{d s_{i}}{d w_{k}} - λ_{i j} \frac{d s_{j}}{d w_{k}}) = \sum_{(i, j) \in I} λ_{i j} (\frac{d s_{i}}{d w_{k}} - \frac{d s_{j}}{d w_{k}})$

令 $λ_{i} = \sum_{j : (i, j) \in I} λ_{i j} - \sum_{j : (j, i) \in I} λ_{i j}$

$\frac{d C}{d w_{k}} = \sum_{i} λ_{i} \frac{d s_{j}}{d w_{k}}$

综上 $w_{k} := w_{k} - α \sum_{i} λ_{i} \frac{d s_{j}}{d w_{k}}$

二、LambdaRank

RankNet以错误pair最少为优化目标，然而NDCG或者ERR等评价指标就只关注top k个结果的排序，所以修改cost function如下。

1、Cost function

C_{i j} = l o g (1 + e^{- σ (s_{i} - s_{j})}) | Δ_{N D C G} |

λ_{i j} = \frac{- σ}{1 + e^{σ (s_{i} - s_{j})}} | Δ_{N D C G} |

优化方式与RankNet相似。

三、LambdaMART

以上两个方法都是通过cost function，采用随机梯度下降更新模型参数，使得计算URL的score值在所有URL排序中，属于最优位置。但是lambdamart是用梯度 $λ_{i j} = \frac{d C_{i j}}{d s_{i}}$ 建立gradient boosting CART回归树，最后得到回归树的加法模型作为最终模型。下面从简单的模型讲解，一步步推导至lambdaMART。

1、AdaBoost算法

AdaBoost思想就是提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值；加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小作用。

计算第m次迭代训练数据更新的权值 $D_{m + 1}$

初始化训练数据的权值分布 $D_{1}$ 为均值：
$D_{1} = (w_{11}, . . ., w_{1 i}, . . ., w_{1 N}), w_{1 i} = \frac{1}{N}, i = 1, 2, . . ., N$
第m次迭代的弱分类器 $G_{m} (x)$ 在训练数据集上的分类误差率：
$e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{i = 1}^{N} w_{m i} I (G_{m} (x_{i}) \neq y_{i})$
更新训练数据集的权值分布
$D_{m + 1} = (w_{m + 1, 1}, . . ., w_{m + 1, i}, . . ., w_{m + 1, N})$
$w_{m + 1, i} = \frac{w_{m i} e^{- α_{m} y_{i} G_{m} (x_{i})}}{Z_{m}}$ ，i=1,2,..,N， $α_{m}$ 为当前迭代的弱分类器的权重。
$Z_{m}$ 是规范化因子 $Z_{m} = \sum_{i = 1}^{N} w_{m i} e^{- α_{m} y_{i} G_{m} (x_{i})}$ ，规范后使得 $D_{m + 1}$ 成为一个概率分布。
1）当 $G_{m} (x) = y_{i}$ 时， $w_{m + 1, i} = \frac{w_{m i} e^{- α_{m}}}{Z_{m}}$ ，正确分类样本权值缩小
2）当 $G_{m} (x) \neq y_{i}$ 时， $w_{m + 1, i} = \frac{w_{m i} e^{α_{m}}}{Z_{m}}$ ，错误分类样本权值增大

计算第m次迭代的弱分类器 $G_{m} (x)$ 权值 $α_{m}$

$G_{m} (x)$ 的权值： $α_{m} = \frac{1}{2} l o g \frac{1 - e_{m}}{e_{m}}$ ，对数为自然对数。
其中 $\frac{1 - e_{m}}{e_{m}} = \frac{1}{e_{m}} - 1$
1）当 $e_{m}$ 大， $\frac{1 - e_{m}}{e_{m}}$ 小， $a_{m}$ 小，分类器权重变低
2）当 $e_{m}$ 小， $\frac{1 - e_{m}}{e_{m}}$ 大， $a_{m}$ 大，分类器权重变高。

算法

输入：训练数据集 $T = (x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})$ ，其中 $x_{i} \in χ \subseteq R^{n} ， y_{i} \in y \subseteq {- 1, + 1}$ ; 弱学习算法；
输出：最终分类器G(x).

1.初始化训练数据的权值分布
$D_{1} = (w_{11}, . . ., w_{1 i}, . . ., w_{1 N}), w_{1 i} = \frac{1}{N}, i = 1, 2, . . ., N$

2.对m=1,2,…,M
（a）使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基本分类器 $G_{m} (x) ， G_{m} (x) : χ$ ->{1,-1}

（b）计算 $G_{m} (x)$ 在训练数据集上的分类误差率 $e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{i = 1}^{N} w_{m i} I (G_{m} (x_{i}) \neq y_{i})$

（c）计算 $G_{m} (x)$ 的系数 $α_{m} = \frac{1}{2} l o g \frac{1 - e_{m}}{e_{m}}$ ，对数为自然对数

（d）更新训练数据集的权值分布
       $D_{m + 1} = (w_{m + 1, 1}, . . ., w_{m + 1, i}, . . ., w_{m + 1, N})$
       $w_{m + 1, i} = \frac{w_{m i} e^{- α_{m} y_{i} G_{m} (x_{i})}}{Z_{m}}$ ，i=1,2,..,N
       $Z_{m}$ 是规范化因子 $Z_{m} = \sum_{i = 1}^{N} w_{m i} e^{- α_{m} y_{i} G_{m} (x_{i})}$ ，规范后使得 $D_{m + 1}$ 成为一个概率分布

3.构建基本分类器的线性组合 $f (x) = \sum_{m = 1}^{M} α_{m} G_{m} (x)$ ，得到最终分类器 $G (x) = s i g n (f (x)) = s i g n (\sum_{m = 1}^{M} α_{m} G_{m} (x)$ )

等价算法-前向分步加法算法

当前向分步算法的损失函数是指数函数时，就是AdaBoost算法。也就是说，前项分步加法算法每次直接通过最小化指数损失函数 $L (y_{i}, f_{m - 1} (x_{i}) + α G (x_{i})) = e x p [- y_{i} * (f_{m - 1} (x_{i}) + α G (x_{i}))]$ ，得到弱分类器的参数和权值 $α$ ；AdaBoost算法是其具体做法，每次通过带权的训练数据学习弱分类器参数，根据分类误差率计算当前迭代弱分类器的权值 $α$ 以及训练数据的权值，而训练数据的权值也是为了下一次迭代求弱分类器的参数，目标为了最小化最终分类器的误分率，否则每次训练数据权重一样，每次学出来的分类器都是一样的，改变训练数据权重是为了让不同分类器侧重不同的特征。

1）加法模型

$f (x) = \sum_{m = 1}^{M} β_{m} b (x; γ_{m})$ ，其中 $b (x; γ_{m})$ 为基函数， $γ_{m}$ 为基函数的参数， $β_{m}$ 为基函数的系数。

在给定训练数据及损失函数 $L (y, f (x))$ ，通过最小化损失函数 $m i n_{β, γ} \sum_{i = 1}^{N} L (y_{i}, β_{m} b (x_{i}; γ_{m}))$ 学习加法模型f(x)。

2）前向分步算法

输入：训练数据集 $T = (x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})$ ；损失函数 $L (y, f (x))$ ；基函数集 ${b (x; γ)}$ ;
输出：加法模型f(x)

1. 初始化 $f_{0} (x) = 0$

2. 对m=1,2,…,M

（a）极小化损失函数 $(β_{m}, γ_{m}) = a r g m i n_{β, γ} \sum_{i = 1}^{N} L (y_{i}, f_{m - 1} (x_{i}) + β b (x_{i}; γ))$ ，得到参数 $β_{m}, γ_{m}$

（b）更新 $f_{m} (x) = f_{m - 1} (x) + β_{m} b (x; γ_{m})$

3. 得到加法模型 $f (x) = f_{M} (x) = \sum_{m = 1}^{M} β_{m} b (x; γ_{m})$

3）由指数损失的前向分步算法推导至AadBoost

假设经过m-1轮迭代，前向分步算法已经得到 $f_{m - 1} (x)$ ，第m轮迭代目标是得到 $α_{m} 、 G_{m} (x)$ ，然后得到 $f_{m} (x) = f_{m - 1} (x) + α_{m} G_{m} (x)$ ,使得 $f_{m} (x)$ 在训练数据集上的指数损失最小，损失函数为： $L (y_{i}, f_{m} (x)) = \sum_{i = 1}^{N} e x p [- y_{i} (f_{m - 1} (x_{i}) + α G (x_{i}))]$ 。

即 $(α_{m}, G_{m} (x)) = a r g m i n_{α, G} \sum_{i = 1}^{N} e x p [- y_{i} (f_{m - 1} (x_{i}) + α G (x_{i}))]$

化简，令 ${\bar{w}}_{m i} = e x p [- y_{i} f_{m - 1} (x_{i})]$

得到 $(α_{m}, G_{m} (x)) = a r g m i n_{α, G} \sum_{i = 1}^{N} {\bar{w}}_{m i} e x p [- y_{i} α G (x_{i})]$

（1)求 $G_{m} (x)$

对任意 $α ⪈ 0$ ， $G_{m} (x) = a r g m i n_{G} \sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i}))$ ，即AdaBoost的基本分类器。

（2）求 $α$

$L = \sum_{i = 1}^{N} {\bar{w}}_{m i} e x p [- y_{i} α G (x_{i})]$

$= \sum_{y_{i} = G_{m} (x_{i})} {\bar{w}}_{m i} e^{- α} + \sum_{y_{i} \neq G_{m} (x_{i})} {\bar{w}}_{m i} e^{α}$

$= e^{- α} (\sum_{i = 1}^{N} {\bar{w}}_{m i} - \sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i}))) + e^{α} (\sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i})))$

$= (e^{α} - e^{- α}) \sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i})) + e^{- α} \sum_{i = 1}^{N} {\bar{w}}_{m i}$

令 $\frac{d L}{d α} = 0$

$(e^{α} + e^{- α}) \sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i})) - e^{- α} \sum_{i = 1}^{N} {\bar{w}}_{m i} = 0$

$(e^{α} + e^{- α}) \sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i})) = e^{- α} \sum_{i = 1}^{N} {\bar{w}}_{m i}$

$\frac{(e^{α} + e^{- α})}{e^{- α}} = \frac{\sum_{i = 1}^{N} {\bar{w}}_{m i}}{\sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i}))}$

$e^{2 α} = \frac{\sum_{i = 1}^{N} {\bar{w}}_{m i}}{\sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i}))} - 1$

$α = \frac{1}{2} l o g [\frac{\sum_{i = 1}^{N} {\bar{w}}_{m i}}{\sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i}))} - 1]$

其中 $e_{m} = \frac{\sum_{i = 1}^{N} {\bar{w}}_{m i} I (y_{i} \neq G (x_{i}))}{\sum_{i = 1}^{N} {\bar{w}}_{m i}}$ ,为分类误差率，分错的样本加权求和除以总的样本加权求和。

$α = \frac{1}{2} l o g (\frac{1}{e_{m}} - 1) = \frac{1}{2} l o g (\frac{1 - e_{m}}{e_{m}})$ ,即AdaBoost算法的分类器权重计算方式。

（3)更新每轮样本权值

由 $f_{m} (x) = f_{m - 1} (x) + α_{m} G_{m} (x)$ , ${\bar{w}}_{m, i} = e x p [- y_{i} f_{m - 1} (x_{i})]$ ，可知

${\bar{w}}_{m + 1, i} = e x p [- y_{i} f_{m} (x_{i})]$

$= e x p [- y_{i} (f_{m - 1} (x_{i}) + α_{m} G_{m} (x_{i}))]$

$= {\bar{w}}_{m, i} e x p [- y_{i} α_{m} G_{m} (x_{i}))]$ ,即AdaBoost算法训练数据权值更新的计算方式，但此处权值归一化放在了 $e_{m}$ 计算时。

综上，指数损失的前向分步算法就是AdaBoost算法。

2、CART回归树

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法，一般为二叉树，递归的二分每个特征。

算法

输入：训练数据集D；
输出：回归树f(x)
1. 遍历所有的j和s，选择最优切分变量j（特征）与切分点s（特征值），即求解 $m i n_{j, s} [m i n_{c_{1}} \sum_{x_{i} \in R_{1} (j, s)} (y_{i} - c_{1})^{2} + m i n_{c_{2}} \sum_{x_{i} \in R_{2} (j, s)} (y_{i} - c_{2})^{2}]$
【 $c_{1}$ 是所有划分到 $R_{1}$ 区域的样本的 $y_{i}$ 的均值】

2. 用选定的对(j,s)划分区域并决定相应的输出值：
$R_{1} (j, s) = x | x^{(j)} \leq s, R_{2} (j, s) = x | x^{(j)} ⪈ s$

$c_{m} = \frac{1}{N_{m}} \sum_{x_{i} \in R_{m} (j, s)} y_{i}$

3. 继续对两个子区域调用步骤1、2，直至满足停止条件

4. 将输入空间划分为M个区域 $R_{1}, R_{2}, . . ., R_{M}$ (即M个叶子节点)，生成决策树： $f (x) = \sum_{m = 1}^{M} c_{m} I (x \in R_{m})$ ，判断样本属于哪个叶子节点，输出就赋值该叶子节点的均值。

3、提升树(AdaBoost+CART)

提升树模型就是决策树的加法模型，对于分类问题，损失函数为指数损失函数，故只需要将AdaBoost算法中的分类器限定为二类分类树即可，也就是说分类提升树就是AdaBoost的一个特例。而对于回归提升树， $f_{M} (x) = \sum_{m = 1}^{M} T (x; Θ_{m})$ ，其中， $T (x; Θ_{m})$ 表示决策树， $Θ_{m}$ 为决策树的参数；M为树的个数。由于是回归模型，此处默认所有基函数参数为1。

若将输入空间划分成J个互不相交的区域 $R_{1}, R_{2}, . . ., R_{J}$ (即决策树的叶子节点)，并在每个区域上确定输出常量 $c_{j}$ ，决策树可表示为 $T (x; Θ_{m}) = \sum_{j = 1}^{J} c_{j} I (x \in R_{m}) ， Θ_{m} = {(R_{1}, c_{1}), (R_{2}, c_{2}), . . ., (R_{J}, c_{J})}$ 。

采用平方误差损失函数
$L (y, f (x)) = (y - f (x))^{2} = [y - f_{m - 1} (x) - T (x; Θ_{m})]^{2}$ ，为了让损失函数最小，只需要让 $T (x; Θ_{m})$ 接近前一次迭代的加法模型输出与真实输出的残差 $r = y - f_{m - 1} (x)$ 。

综上，对回归问题的提升树算法来说，最小化损失函数只需要简单地拟合当前模型的残差。

算法

输入：训练数据集 $T = (x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})$ ，其中 $x_{i} \in χ \subseteq R^{n} ， y_{i} \in y \subseteq R$ ;
输出：提升树 $f_{M} (x)$

1. 初始化 $f_{0} (x) = 0$

2. 对m=1,2,…,M

（a）计算残差 $r_{m i} = y_{i} - f_{m - 1} (x_{i})$

（b）拟合残差 $r_{m i}$ 学习一个回归树，得到第m棵树的叶节点区域 $R_{m j}$ ，j=1,2,…,J

（c）对j=1,2,…,J，计算叶子节点的输出 $c_{m j} = a v e (y_{i} | x_{i} \in R_{m j})$ , 得到 $T (x; Θ_{m}) = \sum_{j = 1}^{J} c_{m j} I (x \in R_{m j})$

（d）更新 $f_{m} (x) = f_{m - 1} (x) + T (x; Θ_{m})$

3. 得到回归问题提升树 $f_{M} (x) = \sum_{m = 1}^{M} T (x; Θ_{m})$

4、GBDT(Gradient Boosting+CART)

当损失函数是平方损失（回归提升树，采用前向加法算法）和指数损失（二分类提升树，直接用AdaBoost算法）时，每一步优化是很简单的。但对一般损失函数而言，并不那么容易。
GBDT利用最速下降法的近似方法，关键在于利用损失函数关于 $f_{m - 1} (x)$ 的负梯度(让损失函数沿着梯度方向的下降)近似回归提升树的残差，拟合一个回归树。
【主要思想】
求f(x)，使得

m i n_{f (x)} \sum_{x_{i} \in R} L (y, f (x))

将f(x)看成一个参数，用梯度下降迭代求解f(x)：

f (x) := f (x) - \frac{d}{d f (x)} \sum_{x_{i} \in R} L (y, f (x))

算法

输入：训练数据集 $T = (x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})$ ，其中 $x_{i} \in χ \subseteq R^{n} ， y_{i} \in y \subseteq R$ ; 损失函数 $L (y, f (x))$ ；
输出：回归树f(x)

1. 初始化 $f_{0} (x) = a r g m i n_{c} \sum_{i = 1}^{N} L (y_{i}, c)$ ，估计使损失函数极小化的常数值，它是只有一个根节点的树， $f_{0} (x_{i}) = c$ ，为了方便第一次迭代计算 $r_{1 i}$

2. 对m=1,2,…,M

（a）对i=1,2,…,N，计算 $r_{m i} = - [\frac{d L (y_{i}, f (x_{i}))}{d f (x_{i})}]_{f (x) = f_{m - 1} (x)}$

（b）对 $r_{m i}$ 拟合一个回归树，得到第m棵树的叶节点区域 $R_{m j}$ ，j=1,2,…,J，估计回归树叶节点区域，以拟合残差的近似值

（c）对j=1,2,…,J，计算叶子节点的输出 $c_{m j} = a r g m i n_{c} \sum_{x_{i} \in R_{m j}} L (y_{i}, f_{m - 1} (x_{i}) + c)$ ，普通的回归树损失函数为平方损失，

Learning to rank总结

一、Ranknet

1、Cost function

预测相关性概率

真实相关性概率

代价函数定义

总代价

2、梯度下降更新模型参数W

二、LambdaRank

1、Cost function

三、LambdaMART

1、AdaBoost算法

计算第m次迭代训练数据更新的权值 Dm+1 D m + 1

计算第m次迭代的弱分类器 Gm(x) G m ( x ) 权值 αm α m

算法

等价算法-前向分步加法算法

1）加法模型

2）前向分步算法

3）由指数损失的前向分步算法推导至AadBoost

2、CART回归树

算法

3、提升树(AdaBoost+CART)

算法

4、GBDT(Gradient Boosting+CART)

算法

计算第m次迭代训练数据更新的权值 $D_{m + 1}$

计算第m次迭代的弱分类器 $G_{m} (x)$ 权值 $α_{m}$