强化学习中的马尔可夫决策过程MDP

马尔可夫过程MP Definition:The Future is independent of the past given the present. 将来和过去是独立的,只和现在有关。 P(St+1|St) = P(St+1|S1,S2,…St) 由此可见,t时刻到t+1时刻的转移只和这两个时刻有关,和其他时刻无关。 马尔可夫奖励过程MRP 马尔可夫奖励过程 可以认为是 马尔可夫过程+奖励 在
相关文章
相关标签/搜索