【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

  所谓PPO(ProximalPolicyOptimization),就是在策略梯度的基础上,使其可以具有Off-Policy的学习能力,同时保证动作执行者和学习者之间差距不要太大,稳扎稳打。 目录 1.Policy Gradient 2.PPO(ProximalPolicyOptimization) 参考: 1.Policy Gradient 增加一个衰减discount 2.PPO(Prox
相关文章
相关标签/搜索