JavaShuo
栏目
标签
【RL】从on-policy到off-policy
时间 2021-01-02
标签
Reinforce Learning
繁體版
原文
原文链接
1. 什么是on-policy,什么是off-policy 其实这个概念我们之前已经提到了,这里不妨再提一下: on-policy就是获取数据的动作和最终策略的动作是一致的,比如Sarsa。 off-policy就是获取数据的动作和最终策略的动作不一致,比如QLearning。 从这种定义我们也可以得知:我们的强化学习流程中涉及到两个关键流程:一个是选择用来获取数据的动作,另一个则是我们最终用
>>阅读原文<<
相关文章
1.
【RL从入门到放弃】【二十五】
2.
【RL从入门到放弃】【十二】
3.
【RL从入门到放弃】【十五】
4.
【RL从入门到放弃】【二十】
5.
【RL从入门到放弃】【五】
6.
【RL从入门到放弃】【十一】
7.
【RL从入门到放弃】【二】
8.
【RL从入门到放弃】【八】
9.
【RL从入门到放弃】【四】
10.
【RL从入门到放弃】【十】
更多相关文章...
•
Rust 输出到命令行
-
RUST 教程
•
从RedisTemplate中获得Jedis实例
-
Redis教程
•
算法总结-广度优先算法
•
算法总结-滑动窗口
相关标签/搜索
从上到下
从0到0.1
从小到大
从古到今
从HTML到Pug
从无到有
从左到右
从头到脚
从0到1
Docker教程
Docker命令大全
Spring教程
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
JDK JRE JVM,JDK卸载与安装
2.
Unity NavMeshComponents 学习小结
3.
Unity技术分享连载(64)|Shader Variant Collection|Material.SetPassFast
4.
为什么那么多人用“ji32k7au4a83”作密码?
5.
关于Vigenere爆0总结
6.
图论算法之最小生成树(Krim、Kruskal)
7.
最小生成树 简单入门
8.
POJ 3165 Traveling Trio 笔记
9.
你的快递最远去到哪里呢
10.
云徙探险中台赛道:借道云原生,寻找“最优路线”
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
【RL从入门到放弃】【二十五】
2.
【RL从入门到放弃】【十二】
3.
【RL从入门到放弃】【十五】
4.
【RL从入门到放弃】【二十】
5.
【RL从入门到放弃】【五】
6.
【RL从入门到放弃】【十一】
7.
【RL从入门到放弃】【二】
8.
【RL从入门到放弃】【八】
9.
【RL从入门到放弃】【四】
10.
【RL从入门到放弃】【十】
>>更多相关文章<<