强化学习七 - Policy Gradient Methods

时间 2020-12-24

原文原文链接

强化学习七 - Policy Gradient Methods 一.前言　　之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的action,还是根据ε-greedy policy以1-ε的概率选择使得action value 最大的action,action 的