【深度强化学习】5. Proximal Policy Optimization

【DataWhale导读】李宏毅老师的深度强化学习之PPO(近端策略优化)部分内容。 文章目录 1. 概念/关键词 2. from on-policy to off-policy 3. PPO/TRPO 3.1 PPO-Penalty 3.2 PPO-Clip 4. 参考 1. 概念/关键词 名称 解释 On-Policy 学习的agent和与环境互动的agent是同一个(自己打王者) Off-P
相关文章
相关标签/搜索