强化学习七 - Policy Gradient Methods

强化学习七 - Policy Gradient Methods 一.前言   之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的action,还是根据ε-greedy policy以1-ε的概率选择使得action value 最大的action,action 的
相关文章
相关标签/搜索