ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型

将强化学习用于推荐系统,能更好地考虑用户的长期效益,从而保持用户在平台中的长期满意度、活跃度。可是,强化学习须要大量训练样本,例如,AlphaGoZero [1] 进行了 490 百万局模拟围棋训练,Atari game 的强化学习在电脑中高速运行了超过 50 个小时 [2]。而在推荐系统的场景中,在线用户是训练环境,系统须要与用户进行大量的交互,利用用户的在线反馈来训练推荐策略。该过程将消耗大量
相关文章
相关标签/搜索