马尔可夫决策过程详解

文章目录 0 写在前面 1 简介 2 马尔可夫属性 3 State Transition Matrix 4 MP 5 示例:Student Markov Chain 6 Markov Reward Process 7 Return 8 为什么需要衰减? 9 MRP的值函数 10 贝尔曼方程 11 贝尔曼方程的数学表示 12 MDP 13 Policy 14 MDP的值函数 15 最优值函数 16
相关文章
相关标签/搜索