lecture 5 ： policy gradient introduction

时间 2020-12-24

标签 CS294-112 课程笔记深度学习繁體版

原文原文链接

lecture 5 ： policy gradient introduction 求时运用了如下一个技巧：于是，由于则变为：在代码实现的时候，用trajactory的平均来估计，即：接下来又分析了 vanila policy gradient 方法的 high varience ：直观上的理解就是，某个概率分布（如图中的r(r), 受

>>阅读原文<<

最新文章

欢迎关注本站公众号,获取更多信息