业界 | OpenAI提出强化学习近端策略优化,可替代策略梯度法

选自OpenAI 机器之心编辑部 参与:蒋思源、Smith 近日,OpenAI 发布了一种新型的强化学习算法,近端策略优化(Proximal Policy Optimization/PPO)算法,该算法的实现和调参十分简单,并且它的性能甚至要超过现阶段最优秀的方法。因为该算法实现非常简单并且有优秀的性能,PPO 已经成为了 OpenAI 默认使用的强化学习算法。 近端策略优化(PPO)可以让我们在
相关文章
相关标签/搜索