A3C & DPPO

时间 2021-01-12

原文原文链接

跟着莫烦老师的强化学习教程时做的笔记，原贴：https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/ A3C Asynchronous Advantage Actor-Critic 一句话概括 A3C: Google DeepMind 提出的一种解决 Actor-Critic 不收敛问题的算法. 它会创建多个并行的