强化学习笔记2

马尔可夫决策过程(MDP) 1、基本概念: 马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关,只由现在的状态决定,那么其满足马尔可夫性质。 马尔可夫链(Markov Chain): 概率论和数理统计中具有马尔可夫性质(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic
相关文章
相关标签/搜索