强化学习---TRPO/DPPO/PPO/PPO2

时间线: OpenAI 发表的 Trust Region Policy Optimization,  Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号,抢在 OpenAI 前面 把 Distributed PPO给先发布了.  OpenAI 还是在 2017年7月20号 发表了一份拿得出手的 PPO 论文 。(ppo+ppo2)  Proximal Pol
相关文章
相关标签/搜索