读论文笔记——Jointly Learning to Recommend and Advertise

论文:Jointly Learning to Recommend and Advertise 链接:https://arxiv.org/pdf/2003.00097 作者:msu+头条 预备知识 强化学习:假定一个智能体(agent),在一个未知的环境中(当前状态state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent
相关文章
相关标签/搜索