JavaShuo
栏目
标签
RL论文阅读20 - MF类算法总结(VPG, TROP, PPO, DDPG, TD3, SAC)
时间 2021-01-19
标签
强化学习RL
繁體版
原文
原文链接
PG类算法总结 1. On-Policy类算法 1.1 VPG:Vanilla Policy Gradient on policy 算法 可用于动作空连续或者离散动作空间 这个就是最初的PG版本。我们的目的是最大化有限的return。J代表的是无折扣的有限return。 下面的公式推导见从PG到A3C τ \tau τ就是我们的采样序列。 A是Advantage function 可见我们需要获得
>>阅读原文<<
相关文章
1.
RL论文阅读12-mf-HER2017(更新)
2.
RL论文阅读12-mf-HER2017
3.
RL论文阅读13-mf-ACER2017
4.
RL论文阅读8-mb-ME-TRPO2018
5.
RL论文阅读7 - MAML2017
6.
RL论文阅读9-mb-MBMF2017
7.
RL论文阅读6 - MB-MPO2018
8.
PPO,Proximal Policy Optimization Algorithms 论文阅读
9.
RL论文阅读14-MB-PETS2018
10.
RL论文阅读3 - 从MVE.2018到STEVE.2019
更多相关文章...
•
RSS 阅读器
-
RSS 教程
•
C# 文本文件的读写
-
C#教程
•
算法总结-回溯法
•
算法总结-广度优先算法
相关标签/搜索
论文阅读
CV论文阅读
ddpg
sac
ppo
外文阅读
论文解读
阅读
PHP 7 新特性
PHP教程
Redis教程
算法
计算
文件系统
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
gitlab4.0备份还原
2.
openstack
3.
深入探讨OSPF环路问题
4.
代码仓库-分支策略
5.
Admin-Framework(八)系统授权介绍
6.
Sketch教程|如何访问组件视图?
7.
问问自己,你真的会用防抖和节流么????
8.
[图]微软Office Access应用终于启用全新图标 Publisher已在路上
9.
微软准备淘汰 SHA-1
10.
微软准备淘汰 SHA-1
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
RL论文阅读12-mf-HER2017(更新)
2.
RL论文阅读12-mf-HER2017
3.
RL论文阅读13-mf-ACER2017
4.
RL论文阅读8-mb-ME-TRPO2018
5.
RL论文阅读7 - MAML2017
6.
RL论文阅读9-mb-MBMF2017
7.
RL论文阅读6 - MB-MPO2018
8.
PPO,Proximal Policy Optimization Algorithms 论文阅读
9.
RL论文阅读14-MB-PETS2018
10.
RL论文阅读3 - 从MVE.2018到STEVE.2019
>>更多相关文章<<