强化学习模型-Priority Replay Buffer

论文:Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015 前言 1.首先提下Replay Buffer吧,Replay Buffer是最基本的样本收集再采样的过程,是之前在做DDQN实验中使用的一种样本利用方式,原因是当我们使用Q-learning算法进行在线
相关文章
相关标签/搜索