JavaShuo
栏目
标签
深度强化学习 on-policy 和 off-policy
时间 2021-07-13
标签
强化学习
繁體版
原文
原文链接
如下图,考查两个Policy的一致性: 生成训练数据基于的Behavior Policy 目标值即target value基于的Target Policy on-policy:两者一致 off-policy:两者不同 比如DQN: Target Policy π 是基于target network(参数为)的greedy policy,即给定s,选择使target value最大的a
>>阅读原文<<
相关文章
1.
强化学习,深度学习,深度强化学习
2.
强化学习,深度强化学习
3.
深度强化学习——强化学习到深度强化学习
4.
深度强化学习1——强化学习到深度强化学习
5.
【深度强化学习】A3C
6.
深度强化学习——A3C
7.
深度强化学习
8.
深度强化学习——DQN
9.
深度强化学习task03
10.
GAN深度强化学习
更多相关文章...
•
您已经学习了 XML Schema,下一步学习什么呢?
-
XML Schema 教程
•
我们已经学习了 SQL,下一步学习什么呢?
-
SQL 教程
•
适用于PHP初学者的学习线路和建议
•
算法总结-深度优先算法
相关标签/搜索
强化学习
深度学习
强化学习篇
深度学习 CNN
Python深度学习
Python 深度学习
深度学习篇
Pytorch 深度学习
深度学习——BNN
深度学习2
XLink 和 XPointer 教程
PHP教程
MyBatis教程
学习路线
调度
初学者
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
【Java8新特性_尚硅谷】P1_P5
2.
SpringSecurity 基础应用
3.
SlowFast Networks for Video Recognition
4.
074-enable-right-click
5.
WindowFocusListener窗体焦点监听器
6.
DNS部署(二)DNS的解析(正向、反向、双向、邮件解析及域名转换)
7.
Java基础(十九)集合(1)集合中主要接口和实现类
8.
浏览器工作原理学习笔记
9.
chrome浏览器构架学习笔记
10.
eclipse引用sun.misc开头的类
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
强化学习,深度学习,深度强化学习
2.
强化学习,深度强化学习
3.
深度强化学习——强化学习到深度强化学习
4.
深度强化学习1——强化学习到深度强化学习
5.
【深度强化学习】A3C
6.
深度强化学习——A3C
7.
深度强化学习
8.
深度强化学习——DQN
9.
深度强化学习task03
10.
GAN深度强化学习
>>更多相关文章<<