DQN:强化学习 阅读记录

1、创新点1:Experience Replay 与普通的TD-r不同的是,DQN采用了一种 experience replay的方式,experience replay会存储所有时刻agent的经验与回报。存储这些replay的数组结构被称为 replay memory。 如上图所示,每一个replay memory被记录为(a, s, r, s)的元组,每次训练将随机选择memory中的一个进
相关文章
相关标签/搜索