Udacity强化学习系列（二）—— 马尔科夫决策过程（Markov Decision Processes）

时间 2020-12-29

标签强化学习 Markov 繁體版

原文原文链接

说到马尔科夫Markov，大家可能都不陌生，陌生的链接往里走。 Markov决策一般场景我们仍然按Udacity强化学习系列（一）中的例子来说。上图一共有四个要素，状态，模型，行为和奖励，共同构成了这个单一智能体的增强学习。这个构成的单一智能体的增强学习我们称作Markov决策过程。状态S：可以对应到网格的各个位置，一个位置即为一个状态，那么一共就有12个状态，这12个状态我们可以用坐标(X,

>>阅读原文<<