强化学习：Markov Decision Process (基于南大俞扬博士演讲的修改和补充）

时间 2021-01-13

标签 Morkov 马尔科夫决策强化学习繁體版

原文原文链接

马尔科夫决策过程（Markov Decision Process）一、强化学习基本数学模型——马尔科夫过程（Markov Process）大家可能听到了很多词，包括MDP，Q-Learning 、还有很多算法的名字，我在报告里就简单介绍一下强化学习发展的过程，以及里面会碰到什么问题。强化学习的历史非常悠久，其中，早期的强化学习和它的一个数学模型MDP有

>>阅读原文<<