马尔可夫决策过程(还有很多需要填补)

马尔可夫决策过程 马尔可夫决策链与马尔可夫奖励过程 马尔可夫、马尔可夫奖励过程;这两个过程是马尔可夫决策过程的一个基础。 马尔可夫 如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。 如果某一个过程满足 马尔可夫性质(Markov Property) ,就是说未来的转移跟过去是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程
相关文章
相关标签/搜索