强化学习基础 | (3) 用动态规划(DP)求解

原文地址 作者:刘建平 在马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。 动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲。 文章目录 1. 动态规划和强化学习问题的联系 2. 策略评估求解预测问题 3. 策略评
相关文章
相关标签/搜索