强化学习6.6

时间 2021-01-20

原文原文链接

6.6预期的Sarsa 考虑与Q学习一样的学习算法，除了考虑到当前策略下每个动作的可能性，它使用预期值而不是最大化下一个状态 - 动作对。也就是说，考虑具有更新规则的算法但这遵循Q学习的模式。给定下一个状态St + 1，该算法在确定性方向上与Sarsa在移位中移动的方向相同，因此称为Erpected Sarsa。其备份图如图6.4右侧所示。图6.3：作为α的函数的TD控制方法对于clif