David Silver强化学习课程笔记(二)

第二课:马尔科夫决策过程         为什么要讲马尔科夫决策过程?因为几乎所有的强化学习问题都可以表述成马尔科夫决策过程(MDP)的形式,比如说:最优控制主要是处理连续MDP问题、任何部分可观测的问题都可以转化为MDP问题、bandits都是仅有一个状态的MDP问题。这里的bandit是一种最为简单的马尔科夫问题:给你一组actions,然后你选择一个action,从而得到reward,仅此而
相关文章
相关标签/搜索