RL学习笔记-2-马尔可夫决策过程及表格型方法

1 马尔可夫过程 Markov Process, MP 一个状态的下一个状态只取决于当前的状态,与当前状态之前的状态无关。   2 马尔可夫奖励过程 Markov Reward Process, MRP 求解MRPs的迭代方法: 动态规划 蒙特卡洛方法(通过采样) TD算法:是动态规划和蒙特卡洛方法的集合 (1)利用蒙特卡洛方法求解MRP的价值函数: (2)利用动态规划的方法,一直迭代贝尔曼方程,
相关文章
相关标签/搜索