强化学习中的REINFORCE策略函数

时间 2021-01-12

原文原文链接

转自：https://blog.csdn.net/Pony017/article/details/81146374 从REINFORCE到PPO，看Policy Gradient的前世今生 Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法，后者是on-line、off-policy的方法。前者是策略迭