Trust region policy optimization笔记

Trust region policy optimization笔记 一、 论文解决的问题 相比于值函数方法,策略搜索算法无疑具有很多的优点。 (1) 直接策略搜索方法是对策略π进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。 (2)值函数方法无法求解动作空间很大或者动作为连续集的问题。 ) 策略搜索算法目前发展最迅速的是策略梯度方法。然而策略梯度方法存在
相关文章
相关标签/搜索