Lee Hung-yi强化学习 | (2) Proximal Policy Optimization算法(PPO)

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址 课程视频 课件地址 1. On-policy vs. Off-policy 所谓 on-policy (左图)指我们学习的 agent(即actor) 和与环境交互的 agent 是相同的,即 agent 一边和环境互动,一边学习; 而 off-policy (右图)指我们学习的 agent 与环境交
相关文章
相关标签/搜索