Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

时间 2021-01-16

原文原文链接

文章目录回顾 Actor-Critic Advantage Actor-Critic Asynchronous Advantage Actor-Critic (A3C) Pathwise Derivative Policy Gradient Q Learning 和 Pathwise Derivative Policy Gradient 的执行过程对比：回顾 Policy gradient G