策略梯度

Policy Gradient Methods for Reinforcement Learning with Function Approximation(PG)   在强化学习的算法中存在两种算法,一个是基于价值函数的算法,另一个是基于策略梯度的算法。为什么要提出策略梯度算法呢? 基于策略的学习可能会具有更好的收敛性,这是因为基于策略的学习虽然每次只改善一点点,但总是朝着好的方向在改善;而在基
相关文章
相关标签/搜索