2020李宏毅学习笔记——66 RL Advanced Version 2.Proximal Policy Optimization

Proximal Policy Optimization 术语和基本思想 On-policy: 学习到的agent以及和环境进行互动的agent是同一个agent Off-policy: 学习到的agent以及和环境进行互动的agent是不同的agent 为什么要引入 Off-policy: 如果我们使用 πθ 来收集数据,那么参数 θ被更新后,我们需要重新对训练数据进行采样,这样会造成巨大的时间
相关文章
相关标签/搜索