马尔科夫决策过程之Bellman Equation(贝尔曼方程)

本文总结一下马尔科夫决策过程之Bellman Equation(贝尔曼方程)   1 Bellman Equation for MRPs 首先我们从value function的角度进行理解,value function可以分为两部分: 见下面的推导公式:   我们直接从第一行到最后一行是比较好理解的,因为从状态s到状态s+1,是不确定,还是之前的例子。   比如掷骰子游戏,当前点数是1的情况下,
相关文章
相关标签/搜索