Reinforcement Learning DQN 算法及 Actor-Critic 算法

1、Actor-Critic 在 Actor-Critic 里面,最知名的方法就是 A3C(Asynchronous Advantage Actor-Critic)。如果去掉前面这个 Asynchronous,只有 Advantage Actor-Critic,就叫做 A2C。 1.1、回归策略梯度 那我们复习一下 policy gradient,在 policy gradient,我们在 upd
相关文章
相关标签/搜索