Sarsa

时间 2021-01-03

标签 sarsa 繁體版

原文原文链接

Sarsa的决策部分与Q-Learning一样，使用Q表形式，挑选值较大的动作施加在环境中来换取奖惩，但sarsa的更新方式不同。其更新准则如下：同样, 在时挑选一个带来最大潜在奖励的动作 a2继续写作业状态 s2。此时, 如果是 Q learning, 首先会观看一下在 s2 上选取哪一个动作会带来最大的奖励, 但是在真正要做决定时, 却不一定会选取到那个带来最大奖励的动作, Q-le

>>阅读原文<<

1. 4. Sarsa
2. Sarsa（lambda）理解
3. Q-learning和Sarsa
4. 5. Sarsa(lambda)
5. TD Learning，SARSA，Q Learning
6. Qlearning、sarsa以及sarsa_lambda
7. 【强化学习】SARSA
8. 强化学习（2）：Sarsa 算法及 Sarsa(lambda) 算法
9. 强化学习笔记(2)：Sarsa 与 Sarsa(lambda)
10. Sarsa 与 Q learning对比
更多相关文章...