深度强化学习-马尔科夫决策过程-笔记(二)

深度强化学习-MDP 马尔科夫决策过程 马尔科夫过程 Markov Process(MP) (1)马尔科夫性质 (2)马尔科夫过程/马尔科夫链 马尔科夫奖励过程 Markov Reward Process(MRP) 贝尔曼方程的矩阵形式 迭代方法计算MRP的价值函数 (1)蒙特卡洛算法计算MRP的价值函数 (2)动态规划算法计算MRP的价值函数 马尔科夫决策过程 Markov Decision P
相关文章
相关标签/搜索