强化学习(六)——策略梯度Policy Gradient

时间 2021-07-12

原文原文链接

本篇文章主旨不在从头讲述PG，而是通过综合别人的总结，写出自己的理解。按照指出的这些引用，消除那些疑惑的地方。首先放一张图，先明确强化学习中有哪些方法，策略梯度又处在怎样的位置。 On-line代表，agent必须和环境交互，一边选取动作一遍学习；Off-line代表，agent既可以直接与环境交互进行学习，也可以从别人的经验里学习。基础&入门了解PG：http://www.javashuo.