强化学习系列之六:策略梯度

文章目录 [隐藏] 1. 策略参数化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic 3. 为什么要有策略梯度 4. 总结 强化学习系列系列文章       上一篇文章介绍价值函数近似,用模型拟合价值函数。这篇文章我们介绍梯度策略,用模型直接拟合策略。        1. 策略参数化       强化学习有两种场景。一种是离散的强化学习场景。在这
相关文章
相关标签/搜索