增强学习(强化学习)基础之策略梯度

http://www.52ml.net/18133.html https://zhuanlan.zhihu.com/p/28348110 这两篇文章必须结合起来理解。 上一篇文章介绍价值函数近似,用模型拟合价值函数。这篇文章我们介绍梯度策略,用模型直接拟合策略。        1. 策略参数化       强化学习有两种场景。一种是离散的强化学习场景。在这种场景下,我们从状态抽取状态特征向量 s^
相关文章
相关标签/搜索