强化学习6.6

6.6预期的Sarsa 考虑与Q学习一样的学习算法,除了考虑到当前策略下每个动作的可能性,它使用预期值而不是最大化下一个状态 - 动作对。 也就是说,考虑具有更新规则的算法 但这遵循Q学习的模式。 给定下一个状态St + 1,该算法在确定性方向上与Sarsa在移位中移动的方向相同,因此称为Erpected Sarsa。 其备份图如图6.4右侧所示。 图6.3:作为α的函数的TD控制方法对于clif
相关文章
相关标签/搜索