强化学习:Markov Decision Process (基于南大俞扬博士演讲的修改和补充)

              马尔科夫决策过程(Markov Decision Process)       一、强化学习基本数学模型——马尔科夫过程(Markov Process) 大家可能听到了很多词,包括MDP,Q-Learning 、还有很多算法的名字,我在报告里就简单介绍一下强化学习发展的过程,以及里面会碰到什么问题。 强化学习的历史非常悠久,其中,早期的强化学习和它的一个数学模型MDP有
相关文章
相关标签/搜索