Proximal Policy Optimization (PPO)

目录 Policy Gradient 术语和基本思想 Policy Gradient 从on-policy到off-policy (反复多次使用经验) 术语和基本思想 PPO / TRPO PPO2: Policy Gradient 术语和基本思想 基本组成:    actor (即policy gradient要学习的对象, 是我们可以控制的部分)    环境 environment (给定的,
相关文章
相关标签/搜索