强化学习之SAC（soft actor-critic）算法

时间 2021-01-12

标签强化学习算法繁體版

原文原文链接

强化学习之SAC（soft actor-critic）算法 PPO算法是目前最主流的DRL算法，但是PPO是一种on-policy算法，存在sample inefficiency的缺点，需要巨量的采样才能学习。DDPG及其拓展是面向连续控制的off-policy的算法，相对于PPO来说更sample efficient，但是它存在对其超参数敏感，收敛效果差的问题。SAC算法是面向最大熵强化学习开发

>>阅读原文<<

1. Soft-Actor-Critic-强化学习算法
2. 强化学习论文笔记：Soft Actor Critic算法
3. 强化学习论文(1): Soft Actor-Critic
4. 强化学习算法
5. 强化学习DQN算法
6. PPO-强化学习算法
7. 强化学习算法DQN
8. 强化学习——DQN算法
9. 机器学习算法——强化学习
10. 强化学习——强化学习的算法分类
更多相关文章...
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• Kotlin学习（一）基本语法
• Tomcat学习笔记（史上最全tomcat学习笔记）

最新文章

1. 外部其他进程嵌入到qt FindWindow获得窗口句柄报错无法链接的外部符号 [email protected] 无法被([email protected]@[email protected]@@引用
2. UVa 11524 - InCircle
3. The Monocycle（bfs）
4. VEC-C滑窗
5. 堆排序的应用-TOPK问题
6. 实例演示ElasticSearch索引查询term,match,match_phase,query_string之间的区别
7. 数学基础知识集合
8. amazeUI 复择框问题解决
9. 背包问题理解
10. 算数平均-几何平均不等式的证明,从麦克劳林到柯西

本站公众号

欢迎关注本站公众号,获取更多信息

1. Soft-Actor-Critic-强化学习算法
2. 强化学习论文笔记：Soft Actor Critic算法
3. 强化学习论文(1): Soft Actor-Critic
4. 强化学习算法
5. 强化学习DQN算法
6. PPO-强化学习算法
7. 强化学习算法DQN
8. 强化学习——DQN算法
9. 机器学习算法——强化学习
10. 强化学习——强化学习的算法分类

>>更多相关文章<<