ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型（附论文下载链接）...

时间 2021-01-04

原文原文链接

选自arXiv 作者：Xinshi Chen、Shuang Li、Hui Li、Shaohua Jiang、Yuan Qi、Le Song 机器之心编译参与：李诗萌、shooting 将强化学习用于推荐系统，能更好地考虑用户的长期效益，从而保持用户在平台中的长期满意度、活跃度。但是，强化学习需要大量训练样本，例如，AlphaGoZero [1] 进行了 490 百万局模拟围棋训练，Atari g