Prioritized DQN

时间 2021-01-07

原文原文链接

论文链接：https://arxiv.org/pdf/1511.05952.pdf 经验回放（Experience replay）让在线强化学习代理记住和重复使用过去的经验。在之前的工作中，experience replay 是均匀随机取样。然而，这种方法不考虑样本的重要性。Prioritized DQN 使用了一个优先级经验的框架，以便更频繁地使用重要性高的样本，从而更有效地学习