Sarsa 与 Q learning对比

时间 2021-01-03

标签 Q Learning Sarsa 繁體版

原文原文链接

Sarsa 算法（on-policy）处于状态 s 时，根据当前 Q网络以及一定的策略来选取动作 a，进而观测到下一步状态 s'，并再次根据当前 Q 网络及相同的策略选择动作 a'，这样就有了一个【 s，a，r，s'，a' 】序列。处于状态 s' 时，就知道了要采取哪个 a'，并真的采取了这个动作。动作 a 的选取遵循 e-greedy 策略，目标 Q 值的计算也是根据策略得到

>>阅读原文<<

1. 强化学习之Q-learning && SARSA 对比
2. Q-learning和Sarsa
3. TD Learning，SARSA，Q Learning
4. SARSA与Q-learning的区别
5. On-policy Sarsa算法与Off-policy Q learning对比
6. sarsa和q-learning区别
7. 强化学习（Q-Learning，Sarsa）
8. SARSA 和 Q-learning 的区别
9. Q-learning和Sarsa的区别
10. Q-learning与Sarsa算法的区别
更多相关文章...
• PHP 类型比较 - PHP教程
• ASP - AJAX 与 ASP - ASP 教程
• Composer 安装与使用
• Java Agent入门实战（三）-JVM Attach原理与使用

最新文章

1. Duang!超快Wi-Fi来袭
2. 机器学习-补充03 神经网络之**函数(Activation Function)
3. git上开源maven项目部署多module maven项目（多module maven+redis+tomcat+mysql）后台部署流程学习记录
4. ecliple-tomcat部署maven项目方式之一
5. eclipse新导入的项目经常可以看到“XX cannot be resolved to a type”的报错信息
6. Spark RDD的依赖于DAG的工作原理
7. VMware安装CentOS-8教程详解
8. YDOOK：Java 项目 Spring 项目导入基本四大 jar 包导入依赖，怎样在 IDEA 的项目结构中导入 jar 包导入依赖
9. 简单方法使得putty（windows10上）可以免密登录树莓派
10. idea怎么用本地maven

本站公众号

欢迎关注本站公众号,获取更多信息

1. 强化学习之Q-learning && SARSA 对比
2. Q-learning和Sarsa
3. TD Learning，SARSA，Q Learning
4. SARSA与Q-learning的区别
5. On-policy Sarsa算法与Off-policy Q learning对比
6. sarsa和q-learning区别
7. 强化学习（Q-Learning，Sarsa）
8. SARSA 和 Q-learning 的区别
9. Q-learning和Sarsa的区别
10. Q-learning与Sarsa算法的区别

>>更多相关文章<<