策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

雷锋网 AI 科技评论按:美国时间7月20日,OpenAI 刚刚通过自己的研究博客介绍了一种新的优化算法 Proximal Policy Optimization(近端策略优化,PPO)。据介绍,这种算法用在强化学习中时表现能达到甚至超过现有算法的顶尖水平,同时还更易于实现和调试。所以 OpenAI 已经把PPO作为自己强化学习研究中首选的算法。雷锋网(公众号:雷锋网) AI 科技评论把这篇介绍
相关文章
相关标签/搜索