Udacity强化学习系列(二)—— 马尔科夫决策过程(Markov Decision Processes)

说到马尔科夫Markov,你们可能都不陌生,陌生的连接往里走。 Markov决策通常场景咱们仍然按Udacity强化学习系列(一)中的例子来讲。 上图一共有四个要素,状态,模型,行为和奖励,共同构成了这个单一智能体的加强学习。这个构成的单一智能体的加强学习咱们称做Markov决策过程。 状态S:能够对应到网格的各个位置,一个位置即为一个状态,那么一共就有12个状态,这12个状态咱们能够用坐标(X,
相关文章
相关标签/搜索