lecture 5 : policy gradient introduction

 lecture 5 : policy gradient introduction 求   时运用了 如下一个技巧:                  于是, 由于 则  变为: 在代码实现的时候,用trajactory的平均来估计,即: 接下来又分析了 vanila policy gradient 方法  的 high varience : 直观上的理解就是,某个概率分布(如图中的r(r), 受
相关文章
相关标签/搜索