Policy Gradient Methods in Reinforcement Learning

Objective Function 不同于value-based methods,policy-based methods的目标是: 对于给定的policy:  其中θ为参数,以求找到使得policy最好的θ 那么如何衡量一个policy π的好坏呢?根据David Silver: 我们可以使用average value: (1) 或每个时间步得到的average reward: (2) 来衡量
相关文章
相关标签/搜索