【强化学习】Prioritized Experience Replay(2016)

RL最简单的形式是,在单独的更新后就立刻丢弃掉到来的数据。伴随而来的有2个问题: 强相关的更新打破了随机梯度下降算法的假定 一些少见的experience可能会在之后有用 经验回放解决了2个问题: 通过融合一些近期的经验有可能打破相关性 一些少见的经验会被重复用到 这篇文章主要研究与所有的transition被均匀回放相比,哪种transition被回放可以是的经验回放更加有效。之前有研究表示,一
相关文章
相关标签/搜索