【笔记2-2】李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)

李宏毅深度强化学习- Proximal Policy Optimization Policy Gradient 术语和基本思想 Policy Gradient 从on-policy到off-policy (反复屡次使用经验) 术语和基本思想 PPO 算法 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071html 李宏毅深度强化学习笔记(一)
相关文章
相关标签/搜索