RL论文阅读20 - MF类算法总结(VPG, TROP, PPO, DDPG, TD3, SAC)

时间 2021-01-19

标签强化学习RL 繁體版

原文原文链接

PG类算法总结 1. On-Policy类算法 1.1 VPG：Vanilla Policy Gradient on policy 算法可用于动作空连续或者离散动作空间这个就是最初的PG版本。我们的目的是最大化有限的return。J代表的是无折扣的有限return。下面的公式推导见从PG到A3C τ \tau τ就是我们的采样序列。 A是Advantage function 可见我们需要获得

>>阅读原文<<

1. RL论文阅读12-mf-HER2017（更新）
2. RL论文阅读12-mf-HER2017
3. RL论文阅读13-mf-ACER2017
4. RL论文阅读8-mb-ME-TRPO2018
5. RL论文阅读7 - MAML2017
6. RL论文阅读9-mb-MBMF2017
7. RL论文阅读6 - MB-MPO2018
8. PPO，Proximal Policy Optimization Algorithms 论文阅读
9. RL论文阅读14-MB-PETS2018
10. RL论文阅读3 - 从MVE.2018到STEVE.2019
更多相关文章...
• RSS 阅读器 - RSS 教程
• C# 文本文件的读写 - C#教程
• 算法总结-回溯法
• 算法总结-广度优先算法

最新文章

1. gitlab4.0备份还原
2. openstack
3. 深入探讨OSPF环路问题
4. 代码仓库-分支策略
5. Admin-Framework（八）系统授权介绍
6. Sketch教程|如何访问组件视图?
7. 问问自己，你真的会用防抖和节流么？？？？
8. [图]微软Office Access应用终于启用全新图标 Publisher已在路上
9. 微软准备淘汰 SHA-1
10. 微软准备淘汰 SHA-1

本站公众号

欢迎关注本站公众号,获取更多信息

1. RL论文阅读12-mf-HER2017（更新）
2. RL论文阅读12-mf-HER2017
3. RL论文阅读13-mf-ACER2017
4. RL论文阅读8-mb-ME-TRPO2018
5. RL论文阅读7 - MAML2017
6. RL论文阅读9-mb-MBMF2017
7. RL论文阅读6 - MB-MPO2018
8. PPO，Proximal Policy Optimization Algorithms 论文阅读
9. RL论文阅读14-MB-PETS2018
10. RL论文阅读3 - 从MVE.2018到STEVE.2019

>>更多相关文章<<