强化学习模型-Priority Replay Buffer

时间 2021-01-19

原文原文链接

论文：Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015 前言 1.首先提下Replay Buffer吧，Replay Buffer是最基本的样本收集再采样的过程，是之前在做DDQN实验中使用的一种样本利用方式，原因是当我们使用Q-learning算法进行在线