【RL】从on-policy到off-policy

时间 2021-01-02

标签 Reinforce Learning 繁體版

原文原文链接

1. 什么是on-policy，什么是off-policy 其实这个概念我们之前已经提到了，这里不妨再提一下： on-policy就是获取数据的动作和最终策略的动作是一致的，比如Sarsa。 off-policy就是获取数据的动作和最终策略的动作不一致，比如QLearning。从这种定义我们也可以得知：我们的强化学习流程中涉及到两个关键流程：一个是选择用来获取数据的动作，另一个则是我们最终用

>>阅读原文<<

1. 【RL从入门到放弃】【二十五】
2. 【RL从入门到放弃】【十二】
3. 【RL从入门到放弃】【十五】
4. 【RL从入门到放弃】【二十】
5. 【RL从入门到放弃】【五】
6. 【RL从入门到放弃】【十一】
7. 【RL从入门到放弃】【二】
8. 【RL从入门到放弃】【八】
9. 【RL从入门到放弃】【四】
10. 【RL从入门到放弃】【十】
更多相关文章...
• Rust 输出到命令行 - RUST 教程
• 从RedisTemplate中获得Jedis实例 - Redis教程
• 算法总结-广度优先算法
• 算法总结-滑动窗口

最新文章

1. JDK JRE JVM,JDK卸载与安装
2. Unity NavMeshComponents 学习小结
3. Unity技术分享连载（64）|Shader Variant Collection|Material.SetPassFast
4. 为什么那么多人用“ji32k7au4a83”作密码？
5. 关于Vigenere爆0总结
6. 图论算法之最小生成树（Krim、Kruskal）
7. 最小生成树简单入门
8. POJ 3165 Traveling Trio 笔记
9. 你的快递最远去到哪里呢
10. 云徙探险中台赛道：借道云原生，寻找“最优路线”

本站公众号

欢迎关注本站公众号,获取更多信息

1. 【RL从入门到放弃】【二十五】
2. 【RL从入门到放弃】【十二】
3. 【RL从入门到放弃】【十五】
4. 【RL从入门到放弃】【二十】
5. 【RL从入门到放弃】【五】
6. 【RL从入门到放弃】【十一】
7. 【RL从入门到放弃】【二】
8. 【RL从入门到放弃】【八】
9. 【RL从入门到放弃】【四】
10. 【RL从入门到放弃】【十】

>>更多相关文章<<