Policy Gradient 算法

常见的policy gradient算法,写出来挺简单的,但是有一个复杂的推导过程,这里就略去了。 Vanilla Policy Gradient Algorithm G t i G_t^i Gti​可以是TD estimate、bootsrap,也可以是简单的从t开始的reward。 图示即为实现monototic imporvement G t i = ∑ t ′ = t T r t i G_
相关文章
相关标签/搜索