JavaShuo
栏目
标签
深度强化学习 on-policy 和 off-policy
时间 2021-07-13
标签
强化学习
繁體版
原文
原文链接
如下图,考查两个Policy的一致性: 生成训练数据基于的Behavior Policy 目标值即target value基于的Target Policy on-policy:两者一致 off-policy:两者不同 比如DQN: Target Policy π 是基于target network(参数为)的greedy policy,即给定s,选择使target value最大的a
>>阅读原文<<
相关文章
1.
强化学习,深度学习,深度强化学习
2.
强化学习,深度强化学习
3.
深度强化学习——强化学习到深度强化学习
4.
深度强化学习1——强化学习到深度强化学习
5.
【深度强化学习】A3C
6.
深度强化学习——A3C
7.
深度强化学习
8.
深度强化学习——DQN
9.
深度强化学习task03
10.
GAN深度强化学习
更多相关文章...
•
您已经学习了 XML Schema,下一步学习什么呢?
-
XML Schema 教程
•
我们已经学习了 SQL,下一步学习什么呢?
-
SQL 教程
•
适用于PHP初学者的学习线路和建议
•
算法总结-深度优先算法
相关标签/搜索
强化学习
深度学习
强化学习篇
深度学习 CNN
Python深度学习
Python 深度学习
深度学习篇
Pytorch 深度学习
深度学习——BNN
深度学习2
XLink 和 XPointer 教程
PHP教程
MyBatis教程
学习路线
调度
初学者
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
resiprocate 之repro使用
2.
Ubuntu配置Github并且新建仓库push代码,从已有仓库clone代码,并且push
3.
设计模式9——模板方法模式
4.
avue crud form组件的快速配置使用方法详细讲解
5.
python基础B
6.
从零开始···将工程上传到github
7.
Eclipse插件篇
8.
Oracle网络服务 独立监听的配置
9.
php7 fmp模式
10.
第5章 Linux文件及目录管理命令基础
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
强化学习,深度学习,深度强化学习
2.
强化学习,深度强化学习
3.
深度强化学习——强化学习到深度强化学习
4.
深度强化学习1——强化学习到深度强化学习
5.
【深度强化学习】A3C
6.
深度强化学习——A3C
7.
深度强化学习
8.
深度强化学习——DQN
9.
深度强化学习task03
10.
GAN深度强化学习
>>更多相关文章<<