2017 Fall CS294 Lecture 6: Actor-critic introduction

很奇怪,没有看到Lecture 5的视频,不过Lecture 5貌似是回顾NN,也没关系,所以就跳过直接从Lecture 6开始了! 我们重现一下actor-critic的诞生过程: 上图中,其实PPT中是有动画的,但是上面无法显示出来,实际的推演过程是: Qπ(st,at)=r(st,at)+Est+1∼p(st+1|st,at)[Vπ(st+1)] Q π ( s t , a t ) = r
相关文章
相关标签/搜索