增强学习（强化学习）基础之策略梯度

时间 2021-01-12

原文原文链接

http://www.52ml.net/18133.html https://zhuanlan.zhihu.com/p/28348110 这两篇文章必须结合起来理解。上一篇文章介绍价值函数近似，用模型拟合价值函数。这篇文章我们介绍梯度策略，用模型直接拟合策略。 1. 策略参数化强化学习有两种场景。一种是离散的强化学习场景。在这种场景下，我们从状态抽取状态特征向量 s^