基于MDP和Policy Gradient的强化排序学习（RLTR）实验

时间 2019-12-13

标签基于 mdp policy gradient 强化排序学习 rltr 实验繁體版

原文原文链接

排序（rank）是搜索、推荐业务中常常可以遇到的业务场景：对于某个特定用户，如何针对该用户的信息，进行个性化的备选产品（candidate）的推荐排序，从而优化业务指标（例如点击率、营收等）？在大数据的支撑下，咱们能够经过一些流行的机器学习算法来自动实现排序任务的学习，如基于传统模型计算出的分数直接排序，或者LTR（learning to rank）、rankBoost、rankSVM

>>阅读原文<<