【李宏毅-强化学习笔记】p1-p2、PPO

一、policy gradient回顾 最核心的部分:   PPO是对policy gradient 的改进版,首先回顾下policy gradient并介绍两个tips。Policy gradient的背景是:我们现在有N笔数据,用这些数据来优化agent也就是π-function。其中每一笔数据是:                  τ= {s1, a1,r1, s2, a2,r2,…,sT,
相关文章
相关标签/搜索