Reinforcement Learning DQN 算法及 Actor-Critic 算法

时间 2021-06-05

原文原文链接

1、Actor-Critic 在 Actor-Critic 里面，最知名的方法就是 A3C(Asynchronous Advantage Actor-Critic)。如果去掉前面这个 Asynchronous，只有 Advantage Actor-Critic，就叫做 A2C。 1.1、回归策略梯度那我们复习一下 policy gradient，在 policy gradient，我们在 upd