JavaShuo
栏目
标签
RL论文阅读20 - MF类算法总结(VPG, TROP, PPO, DDPG, TD3, SAC)
时间 2021-01-19
标签
强化学习RL
繁體版
原文
原文链接
PG类算法总结 1. On-Policy类算法 1.1 VPG:Vanilla Policy Gradient on policy 算法 可用于动作空连续或者离散动作空间 这个就是最初的PG版本。我们的目的是最大化有限的return。J代表的是无折扣的有限return。 下面的公式推导见从PG到A3C τ \tau τ就是我们的采样序列。 A是Advantage function 可见我们需要获得
>>阅读原文<<
相关文章
1.
RL论文阅读12-mf-HER2017(更新)
2.
RL论文阅读12-mf-HER2017
3.
RL论文阅读13-mf-ACER2017
4.
RL论文阅读8-mb-ME-TRPO2018
5.
RL论文阅读7 - MAML2017
6.
RL论文阅读9-mb-MBMF2017
7.
RL论文阅读6 - MB-MPO2018
8.
PPO,Proximal Policy Optimization Algorithms 论文阅读
9.
RL论文阅读14-MB-PETS2018
10.
RL论文阅读3 - 从MVE.2018到STEVE.2019
更多相关文章...
•
RSS 阅读器
-
RSS 教程
•
C# 文本文件的读写
-
C#教程
•
算法总结-回溯法
•
算法总结-广度优先算法
相关标签/搜索
论文阅读
CV论文阅读
ddpg
sac
ppo
外文阅读
论文解读
阅读
PHP 7 新特性
PHP教程
Redis教程
算法
计算
文件系统
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
shell编译问题
2.
mipsel 编译问题
3.
添加xml
4.
直方图均衡化
5.
FL Studio钢琴卷轴之画笔工具
6.
中小企业为什么要用CRM系统
7.
Github | MelGAN 超快音频合成源码开源
8.
VUE生产环境打包build
9.
RVAS(rare variant association study)知识
10.
不看后悔系列!DTS 控制台入门一本通(附网盘链接)
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
RL论文阅读12-mf-HER2017(更新)
2.
RL论文阅读12-mf-HER2017
3.
RL论文阅读13-mf-ACER2017
4.
RL论文阅读8-mb-ME-TRPO2018
5.
RL论文阅读7 - MAML2017
6.
RL论文阅读9-mb-MBMF2017
7.
RL论文阅读6 - MB-MPO2018
8.
PPO,Proximal Policy Optimization Algorithms 论文阅读
9.
RL论文阅读14-MB-PETS2018
10.
RL论文阅读3 - 从MVE.2018到STEVE.2019
>>更多相关文章<<