业界 | OpenAI提出强化学习近端策略优化，可替代策略梯度法

时间 2021-01-13

原文原文链接

选自OpenAI 机器之心编辑部参与：蒋思源、Smith 近日，OpenAI 发布了一种新型的强化学习算法，近端策略优化（Proximal Policy Optimization/PPO）算法，该算法的实现和调参十分简单，并且它的性能甚至要超过现阶段最优秀的方法。因为该算法实现非常简单并且有优秀的性能，PPO 已经成为了 OpenAI 默认使用的强化学习算法。近端策略优化（PPO）可以让我们在

>>阅读原文<<