OpenAI发布新强化学习算法：近端策略优化

时间 2021-01-12

原文原文链接

本文来自AI新媒体量子位（QbitAI） OpenAI今天发布一类新的强化学习算法：近端策略优化（Proximal Policy Optimization，PPO）。因为易于使用和表现良好，PPO已经成为OpenAI默认的强化学习算法。 PPO让我们在根据挑战性的环境中训练AI策略，例如上面所示的Roboschool训练场中，智能体（agent）的任务是追逐粉红色的球体，并在期间学习走路、跑步、转