强化学习中的REINFORCE策略函数

转自:https://blog.csdn.net/Pony017/article/details/81146374 从REINFORCE到PPO,看Policy Gradient的前世今生 Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法,后者是on-line、off-policy的方法。前者是策略迭
相关文章
相关标签/搜索