强化学习导论 | 第三章有限马尔科夫决策过程

时间 2021-01-13

原文原文链接

本章将讲解有限马尔科夫决策过程中的有关反馈、策略和价值函数的内容。这个问题也是评估性反馈（evaluative feedback），但和上一章中讲到的多臂赌博机不同，多臂赌博机仅包含一个状态。在包含多个状态的情况下，我们需要考虑在不同状态下选择不同的动作。文章目录 3.1 agent和环境的交互 3.2 马尔科夫性质 3.3 强化学习目标 3.4 策略和值函数 3.5 贝尔曼方程（Bellman

>>阅读原文<<

强化学习导论 | 第三章 有限马尔科夫决策过程

强化学习导论 | 第三章有限马尔科夫决策过程