强化学习(六)——策略梯度Policy Gradient

本篇文章主旨不在从头讲述PG,而是通过综合别人的总结,写出自己的理解。按照指出的这些引用,消除那些疑惑的地方。 首先放一张图,先明确强化学习中有哪些方法,策略梯度又处在怎样的位置。 On-line代表,agent必须和环境交互,一边选取动作一遍学习;Off-line代表,agent既可以直接与环境交互进行学习,也可以从别人的经验里学习。 基础&入门了解PG:http://www.javashuo.
相关文章
相关标签/搜索