【David Silver-强化学习笔记】p2、马尔科夫模型

2.1 马尔科夫过程 Markov decision process 是用来对环境建模的模型,这个环境是fully observable的,即便是partially observable也可以转化为MDP。所以在强化学习领域,几乎所有的问题都可以转化为MDP模型。 2.1.1 Markov property 2.1.2 State Transition Matrix 假如agent有不同的状态,可
相关文章
相关标签/搜索