Udacity强化学习系列（二）—— 马尔科夫决策过程（Markov Decision Processes）

时间 2019-12-06

标签 udacity 强化学习系列决策过程 markov decision processes 繁體版

原文原文链接

说到马尔科夫Markov，你们可能都不陌生，陌生的连接往里走。 Markov决策通常场景咱们仍然按Udacity强化学习系列（一）中的例子来讲。上图一共有四个要素，状态，模型，行为和奖励，共同构成了这个单一智能体的加强学习。这个构成的单一智能体的加强学习咱们称做Markov决策过程。状态S：能够对应到网格的各个位置，一个位置即为一个状态，那么一共就有12个状态，这12个状态咱们能够用坐标(X,

>>阅读原文<<