David Silver强化学习课程笔记（二）

时间 2020-12-23

原文原文链接

第二课：马尔科夫决策过程为什么要讲马尔科夫决策过程？因为几乎所有的强化学习问题都可以表述成马尔科夫决策过程（MDP）的形式，比如说：最优控制主要是处理连续MDP问题、任何部分可观测的问题都可以转化为MDP问题、bandits都是仅有一个状态的MDP问题。这里的bandit是一种最为简单的马尔科夫问题：给你一组actions，然后你选择一个action，从而得到reward，仅此而

>>阅读原文<<