深度强化学习 on-policy 和 off-policy

时间 2021-07-13

标签强化学习繁體版

原文原文链接

如下图，考查两个Policy的一致性：生成训练数据基于的Behavior Policy 目标值即target value基于的Target Policy on-policy：两者一致 off-policy：两者不同比如DQN： Target Policy π 是基于target network(参数为)的greedy policy，即给定s，选择使target value最大的a

>>阅读原文<<

1. 强化学习,深度学习,深度强化学习
2. 强化学习，深度强化学习
3. 深度强化学习——强化学习到深度强化学习
4. 深度强化学习1——强化学习到深度强化学习
5. 【深度强化学习】A3C
6. 深度强化学习——A3C
7. 深度强化学习
8. 深度强化学习——DQN
9. 深度强化学习task03
10. GAN深度强化学习
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• 适用于PHP初学者的学习线路和建议
• 算法总结-深度优先算法

最新文章

1. resiprocate 之repro使用
2. Ubuntu配置Ｇithub并且新建仓库push代码，从已有仓库clone代码，并且push
3. 设计模式9——模板方法模式
4. avue crud form组件的快速配置使用方法详细讲解
5. python基础B
6. 从零开始···将工程上传到github
7. Eclipse插件篇
8. Oracle网络服务独立监听的配置
9. php7 fmp模式
10. 第5章　Linux文件及目录管理命令基础

本站公众号

欢迎关注本站公众号,获取更多信息

1. 强化学习,深度学习,深度强化学习
2. 强化学习，深度强化学习
3. 深度强化学习——强化学习到深度强化学习
4. 深度强化学习1——强化学习到深度强化学习
5. 【深度强化学习】A3C
6. 深度强化学习——A3C
7. 深度强化学习
8. 深度强化学习——DQN
9. 深度强化学习task03
10. GAN深度强化学习

>>更多相关文章<<