Udacity强化学习系列(二)—— 马尔科夫决策过程(Markov Decision Processes)

说到马尔科夫Markov,大家可能都不陌生,陌生的链接往里走。 Markov决策一般场景我们仍然按Udacity强化学习系列(一)中的例子来说。 上图一共有四个要素,状态,模型,行为和奖励,共同构成了这个单一智能体的增强学习。这个构成的单一智能体的增强学习我们称作Markov决策过程。 状态S:可以对应到网格的各个位置,一个位置即为一个状态,那么一共就有12个状态,这12个状态我们可以用坐标(X,
相关文章
相关标签/搜索