强化学习笔记(2):Sarsa 与 Sarsa(lambda)

1.Sarsa 算法 上篇文章中介绍了Q-Learning算法, 而Sarsa 和 Q-Learning是非常类似的,二者在决策环节都是基于Q表,挑选值较大的动作值施加在环境中来换取回报。但是区别在于 Sarsa 的更新方式不一样。 下面以强化学习笔记(1)中老鼠走迷宫为例,对Sarsa算法流程进行说明(Sarsa 和 Q-Learning的不同之处用粗体标出): 首先初始化决策表 Q Q ,令
相关文章
相关标签/搜索