Prioritized DQN

论文链接:https://arxiv.org/pdf/1511.05952.pdf         经验回放(Experience replay)让在线强化学习代理记住和重复使用过去的经验。在之前的工作中,experience replay 是均匀随机取样。然而,这种方法不考虑样本的重要性。Prioritized DQN 使用了一个优先级经验的框架,以便更频繁地使用重要性高的样本,从而更有效地学习
相关文章
相关标签/搜索