RL学习笔记-6-DDPG 算法

时间 2021-08-15

标签强化学习繁體版

原文原文链接

在连续控制领域，比较经典的强化学习算法就是 DDPG(Deep Deterministic Policy Gradient)。DDPG 的特点可以从它的名字当中拆解出来，拆解成 Deep、Deterministic 和 Policy Gradient。 Deep 是因为用了神经网络； Deterministic 表示 DDPG 输出的是一个确定性的动作，可以用于连续动作的一个环境； Policy

>>阅读原文<<

1. RL学习笔记
2. 算法学习（《算法》学习笔记）
3. value_based RL学习记录
4. LRU算法 :学习笔记
5. KM算法学习笔记
6. CTC算法学习笔记
7. EM算法学习笔记
8. 算法学习笔记
9. KNN算法（学习笔记）
10. SVM算法（学习笔记）
更多相关文章...
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• Kotlin学习（一）基本语法

最新文章

1. gitlab新建分支后，android studio拿不到
2. Android Wi-Fi 连接/断开时间
3. 今日头条面试题+答案，花点时间看看！
4. 小程序时间组件的开发
5. 小程序学习系列一
6. [微信小程序] 微信小程序学习(一)——起步
7. 硬件
8. C3盒模型以及他出现的必要性和圆角边框/前端三
9. DELL戴尔笔记本关闭触摸板触控板WIN10
10. Java的long和double类型的赋值操作为什么不是原子性的？

本站公众号

欢迎关注本站公众号,获取更多信息

1. RL学习笔记
2. 算法学习（《算法》学习笔记）
3. value_based RL学习记录
4. LRU算法 :学习笔记
5. KM算法学习笔记
6. CTC算法学习笔记
7. EM算法学习笔记
8. 算法学习笔记
9. KNN算法（学习笔记）
10. SVM算法（学习笔记）

>>更多相关文章<<