强化学习系列之六:策略梯度

时间 2021-01-16

原文原文链接

文章目录 [隐藏] 1. 策略参数化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic 3. 为什么要有策略梯度 4. 总结强化学习系列系列文章上一篇文章介绍价值函数近似，用模型拟合价值函数。这篇文章我们介绍梯度策略，用模型直接拟合策略。 1. 策略参数化强化学习有两种场景。一种是离散的强化学习场景。在这