强化学习论文(4): Deep Reinforcement Learning in Large Discrete Action Spaces

时间 2020-12-24

原文原文链接

大规模离散动作空间内的深度强化学习摘要处理这样的任务需要：1. 在动作集合上的泛化能力； 2. 次线性查找复杂度。本文提出方法，利用先验知识将动作嵌入连续空间使其可以泛化；采用近似最近邻算法达到 log ⁡ ( n ) \log (n) log(n)查找复杂度。背景知识介绍强化学习方法可分为两类：value-based policy, action-based policy. value