强化学习基础学习系列之求解MDP问题的policy-base方法

时间 2020-12-29

原文原文链接

介绍蒙特卡罗策略梯度 actor-critic 策略梯度一些理解介绍安利一下Karpathy的这篇文章：https://zhuanlan.zhihu.com/p/27699682，不多做介绍，看了就知道好。强化学习算法除了value-base的方法，还有另一类方法，这类方法像监督学习一样直接去拟合策略，这一类方法叫做policy-base的方法，同样，这里只是讨论model-free也就