【强化学习】Prioritized Experience Replay（2016）

时间 2021-01-19

原文原文链接

RL最简单的形式是，在单独的更新后就立刻丢弃掉到来的数据。伴随而来的有2个问题：强相关的更新打破了随机梯度下降算法的假定一些少见的experience可能会在之后有用经验回放解决了2个问题：通过融合一些近期的经验有可能打破相关性一些少见的经验会被重复用到这篇文章主要研究与所有的transition被均匀回放相比，哪种transition被回放可以是的经验回放更加有效。之前有研究表示，一

>>阅读原文<<