强化学习习题-动态规划策略学习格子问题

题目描述-格子游戏:         每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变: (1)策略估值:使用动态规划方法求当前策略下每一格子对应的状态估值 解:   (2) 策略提升:写出上述估值函数对应的贪心策略 解: (3)最优策略:求解该问题最优策略及其相应的状态估值 解: 状态不变,最大策略为:
相关文章
相关标签/搜索