RL policy gradient 之 A2C, A3C,PPO小总结

时间 2021-01-02

原文原文链接

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法，准确地说是 Actor-Critic 方法，即，同时用到了 value function 和 policy funtion. 这三种方法之间有什么区别呢？ A2C 这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种，A2C 是在 Actor-Critic 方法的基础上多了一个