强化学习导论 | 第三章 有限马尔科夫决策过程

本章将讲解有限马尔科夫决策过程中的有关反馈、策略和价值函数的内容。这个问题也是评估性反馈(evaluative feedback),但和上一章中讲到的多臂赌博机不同,多臂赌博机仅包含一个状态。在包含多个状态的情况下,我们需要考虑在不同状态下选择不同的动作。 文章目录 3.1 agent和环境的交互 3.2 马尔科夫性质 3.3 强化学习目标 3.4 策略和值函数 3.5 贝尔曼方程(Bellman
相关文章
相关标签/搜索