Q-learning和Sarsa的区别

时间 2021-01-10

标签强化学习繁體版

原文原文链接

因此对于SARSA来说 1.在状态s’时，就知道了要采取哪个a’，并真的采取了这个动作。 2.动作a的选取遵循e-greedy策略，目标Q值的计算也是根据（e-greedy）策略得到的动作a’计算得来，因此为on-policy学习。（选择下个动作的存在探索的可能性）而对于Q-learning来说只会选择使得下个状态Q值最大的下个动作。 Q-learning 只会估计下个动作是什么（使得下个状

>>阅读原文<<

1. Qlearning、sarsa以及sarsa_lambda
2. SARSA 和 Q-learning 的区别
3. sarsa和q-learning区别
4. 强化学习笔记（一） Qlearning & Sarsa
5. SARSA与Q-learning的区别
6. [强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
7. Q-learning与Sarsa算法的区别
8. Q-learning与Sarsa原理以及区别
9. 时间差分方法Q-learning和sarsa的区别
10. Q-learning和Sarsa
更多相关文章...
• Git 工作区、暂存区和版本库 - Git 教程
• 事务的四大特性和隔离级别 - Hibernate教程
• 适用于PHP初学者的学习线路和建议
• TiDB 在摩拜单车在线数据业务的应用和实践

最新文章

1. Appium入门
2. Spring WebFlux 源码分析(2)-Netty 服务器启动服务流程 --TBD
3. wxpython入门第六步（高级组件）
4. CentOS7.5安装SVN和可视化管理工具iF.SVNAdmin
5. jedis 3.0.1中JedisPoolConfig对象缺少setMaxIdle、setMaxWaitMillis等方法，问题记录
6. 一步一图一代码，一定要让你真正彻底明白红黑树
7. 2018-04-12—（重点）源码角度分析Handler运行原理
8. Spring AOP源码详细解析
9. Spring Cloud（1）
10. python简单爬去油价信息发送到公众号

本站公众号

欢迎关注本站公众号,获取更多信息

1. Qlearning、sarsa以及sarsa_lambda
2. SARSA 和 Q-learning 的区别
3. sarsa和q-learning区别
4. 强化学习笔记（一） Qlearning & Sarsa
5. SARSA与Q-learning的区别
6. [强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
7. Q-learning与Sarsa算法的区别
8. Q-learning与Sarsa原理以及区别
9. 时间差分方法Q-learning和sarsa的区别
10. Q-learning和Sarsa

>>更多相关文章<<