马尔科夫决策过程之Bellman Equation（贝尔曼方程）

时间 2021-01-02

原文原文链接

本文总结一下马尔科夫决策过程之Bellman Equation（贝尔曼方程） 1 Bellman Equation for MRPs 首先我们从value function的角度进行理解，value function可以分为两部分：见下面的推导公式：我们直接从第一行到最后一行是比较好理解的，因为从状态s到状态s+1,是不确定，还是之前的例子。比如掷骰子游戏，当前点数是1的情况下，