随机策略梯度算法(stochastic-policy-gradient)-强化学习

策略搜索方法相对于值函数法有如下优缺点 优点: 直接策略搜索方法是对策略 π \pi π进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。 利用值函数方法求解最优策略时,策略改进需要求解 a r g m a x a Q θ ( s , a ) argmax_a Q_\theta(s,a) argmaxa​Qθ​(s,a),当要解决的问题动作空间很大或者动作为
相关文章
相关标签/搜索