RL policy gradient 之 A2C, A3C,PPO小总结

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法,准确地说是 Actor-Critic 方法,即,同时用到了 value function 和 policy funtion. 这三种方法之间有什么区别呢? A2C 这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种,A2C 是在 Actor-Critic 方法的基础上多了一个
相关文章
相关标签/搜索