论文笔记 Reinforcement Learning with Derivative-Free Exploration

摘要 高效的探索是sample-efficient强化学习的关键。目前最普遍常用的方法(如-greedy)仍是低效率的,而无梯度优化(derivative-free optimization)发明了高效的方法来更好地全局搜索。本文介绍一种无梯度探索(DFE)作为一种早期强化学习的常用高效探索方法。DFE克服了基于纯无梯度优化的强化学习方法的优化低效和可扩展性差的缺点。本文实验通过在确定离线策略方法
相关文章
相关标签/搜索