强化学习bellman求状态价值笔记

现在求在State5状态下的VAL 首先选择a3操作的概率是0.5,即时奖励是10,到达stop位 然后选择a4操作的概率也是0.5,即时奖励是1,还没完  此时走到的位置往下走有三种可能  走第一条路的概率是0.2,目标点VAL是-1.3  走第二条路的概率是0.4,目标点VAL是2.7  走第三条路的概率是0.4,目标点VAL是7.4
相关文章
相关标签/搜索