强化学习论文(4): Deep Reinforcement Learning in Large Discrete Action Spaces

大规模离散动作空间内的深度强化学习 摘要 处理这样的任务需要:1. 在动作集合上的泛化能力; 2. 次线性查找复杂度。 本文提出方法,利用先验知识将动作嵌入连续空间使其可以泛化;采用近似最近邻算法达到 log ⁡ ( n ) \log (n) log(n)查找复杂度。 背景知识介绍 强化学习方法可分为两类:value-based policy, action-based policy. value
相关文章
相关标签/搜索