强化学习基础学习系列之求解MDP问题的policy-base方法

介绍 蒙特卡罗策略梯度 actor-critic 策略梯度 一些理解 介绍 安利一下Karpathy的这篇文章:https://zhuanlan.zhihu.com/p/27699682,不多做介绍,看了就知道好。 强化学习算法除了value-base的方法,还有另一类方法,这类方法像监督学习一样直接去拟合策略,这一类方法叫做policy-base的方法,同样,这里只是讨论model-free也就
相关文章
相关标签/搜索