2020李宏毅学习笔记——66 RL Advanced Version 2.Proximal Policy Optimization

时间 2021-01-16

原文原文链接

Proximal Policy Optimization 术语和基本思想 On-policy: 学习到的agent以及和环境进行互动的agent是同一个agent Off-policy: 学习到的agent以及和环境进行互动的agent是不同的agent 为什么要引入 Off-policy: 如果我们使用 πθ 来收集数据，那么参数 θ被更新后，我们需要重新对训练数据进行采样，这样会造成巨大的时间