强化学习Proximal Policy Optimization (PPO) 原理

视频地址:https://www.bilibili.com/video/av63546968?p=2 课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html Proximal Policy Optimization (PPO) 所谓 on-policy 指我们学习的 agent(即actor) 和与环境交互的 agent 是相同的,
相关文章
相关标签/搜索