随机策略梯度算法（stochastic-policy-gradient）-强化学习

时间 2021-01-02

原文原文链接

策略搜索方法相对于值函数法有如下优缺点优点：直接策略搜索方法是对策略 π \pi π进行参数化表示，与值函数方中对值函数进行参数化表示相比，策略参数化更简单，有更好的收敛性。利用值函数方法求解最优策略时，策略改进需要求解 a r g m a x a Q θ ( s , a ) argmax_a Q_\theta(s,a) argmaxaQθ(s,a)，当要解决的问题动作空间很大或者动作为