Trust region policy optimization笔记

时间 2021-01-02

原文原文链接

Trust region policy optimization笔记一、论文解决的问题相比于值函数方法，策略搜索算法无疑具有很多的优点。（1）直接策略搜索方法是对策略π进行参数化表示，与值函数方中对值函数进行参数化表示相比，策略参数化更简单，有更好的收敛性。（2）值函数方法无法求解动作空间很大或者动作为连续集的问题。 ) 策略搜索算法目前发展最迅速的是策略梯度方法。然而策略梯度方法存在

>>阅读原文<<