强化学习笔记(2)：Sarsa 与 Sarsa(lambda)

时间 2021-01-03

标签 Sarsa Sarsa(lambda) 强化学习 on policy 繁體版

原文原文链接

1.Sarsa 算法上篇文章中介绍了Q-Learning算法，而Sarsa 和 Q-Learning是非常类似的，二者在决策环节都是基于Q表，挑选值较大的动作值施加在环境中来换取回报。但是区别在于 Sarsa 的更新方式不一样。下面以强化学习笔记(1)中老鼠走迷宫为例，对Sarsa算法流程进行说明(Sarsa 和 Q-Learning的不同之处用粗体标出)：首先初始化决策表 Q Q ，令

>>阅读原文<<