强化学习之马尔可夫决策过程

文章目录 一、Markov Process(MP) 二、Markov Reward Process(MRP) 三、Markov Decision Process(MDP) 一、Markov Process(MP) 如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。比如说我们这里有一个 h t h_t ht​,它包含了之前的所有状态
相关文章
相关标签/搜索