强化学习——A3C,GA3C

时间 2021-01-16

原文原文链接

一、问题与贡献存在的问题不同类型的深度神经网络为 DRL 中策略优化任务提供了高效运行的表征形式。为了缓解传统策略梯度方法与神经网络结合时出现的不稳定性，各类深度策略梯度方法（如 DDPG、 SVG 等）都采用了经验回放机制来消除训练数据间的相关性。然而经验回放机制存在两个问题： agent 与环境的每次实时交互都需要耗费很多的内存和计算力；经验回放机制要求 agent 采用离策略（o

>>阅读原文<<