基于MDP和Policy Gradient的强化排序学习（RLTR）实验

时间 2021-01-02

原文原文链接

排序（rank）是搜索、推荐业务中经常能够遇到的业务场景：对于某个特定用户，如何针对该用户的信息，进行个性化的备选产品（candidate）的推荐排序，从而优化业务指标（例如点击率、营收等）？在大数据的支撑下，我们可以通过一些流行的机器学习算法来自动实现排序任务的学习，如基于传统模型计算出的分数直接排序，或者LTR（learning to rank）、rankBoost、rankSVM

>>阅读原文<<