强化学习之马尔可夫决策

大家学过机器学习的话应该对隐马尔可夫模型(HMM)有所了解,它具有的马尔可夫特性就是指系统的下个状态只和当前状态信息有关,而与更早之前的状态无关,即: 马尔科夫决策过程(Markov Decision Process, MDP)以马尔可夫随机过程为理论基础,马尔科夫决策过程也可以用一个元组(S,A,P,R,γ)(S,A,P,R,γ)来表示。SS是决策过程中的状态集合;AA是决策过程中的动作集合;P
相关文章
相关标签/搜索