JavaShuo
栏目
标签
Q-learning和Sarsa的区别
时间 2021-01-10
标签
强化学习
繁體版
原文
原文链接
因此对于SARSA来说 1.在状态s’时,就知道了要采取哪个a’,并真的采取了这个动作。 2.动作a的选取遵循e-greedy策略,目标Q值的计算也是根据(e-greedy)策略得到的动作a’计算得来,因此为on-policy学习。 (选择下个动作的存在探索的可能性) 而对于Q-learning来说 只会选择使得下个状态Q值最大的下个动作。 Q-learning 只会估计下个动作是什么(使得下个状
>>阅读原文<<
相关文章
1.
Qlearning、sarsa以及sarsa_lambda
2.
SARSA 和 Q-learning 的区别
3.
sarsa和q-learning区别
4.
强化学习笔记(一) Qlearning & Sarsa
5.
SARSA与Q-learning的区别
6.
[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
7.
Q-learning与Sarsa算法的区别
8.
Q-learning与Sarsa原理以及区别
9.
时间差分方法Q-learning和sarsa的区别
10.
Q-learning和Sarsa
更多相关文章...
•
Git 工作区、暂存区和版本库
-
Git 教程
•
事务的四大特性和隔离级别
-
Hibernate教程
•
适用于PHP初学者的学习线路和建议
•
TiDB 在摩拜单车在线数据业务的应用和实践
相关标签/搜索
qlearning
sarsa
区别
su和sudo区别
别的
不加区别
区别于
详细区别
有区别
区别对待
XLink 和 XPointer 教程
NoSQL教程
MyBatis教程
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
Appium入门
2.
Spring WebFlux 源码分析(2)-Netty 服务器启动服务流程 --TBD
3.
wxpython入门第六步(高级组件)
4.
CentOS7.5安装SVN和可视化管理工具iF.SVNAdmin
5.
jedis 3.0.1中JedisPoolConfig对象缺少setMaxIdle、setMaxWaitMillis等方法,问题记录
6.
一步一图一代码,一定要让你真正彻底明白红黑树
7.
2018-04-12—(重点)源码角度分析Handler运行原理
8.
Spring AOP源码详细解析
9.
Spring Cloud(1)
10.
python简单爬去油价信息发送到公众号
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
Qlearning、sarsa以及sarsa_lambda
2.
SARSA 和 Q-learning 的区别
3.
sarsa和q-learning区别
4.
强化学习笔记(一) Qlearning & Sarsa
5.
SARSA与Q-learning的区别
6.
[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
7.
Q-learning与Sarsa算法的区别
8.
Q-learning与Sarsa原理以及区别
9.
时间差分方法Q-learning和sarsa的区别
10.
Q-learning和Sarsa
>>更多相关文章<<