DRL（五）——DDPG

时间 2021-01-22

标签 DRL 繁體版

原文原文链接

在我的笔记DRL（四）——value function中，大部分讲了Q Learning的算法、存在的问题和解决的措施。这一个笔记的内容是紧接上一篇的。为什么要提出DDPG呢？因为不管是DQN也好，DDQN也好，都是离散动作的，就是说，action是有限的。然而很多时候action都是连续的，这时候就需要新的方法了。在连续动作空间中怎样选择最优action呢？我们知道，在离散动作的Q Le

>>阅读原文<<

1. DRL-FlappyBird
2. DDPG 算法
3. DRL（三）——Policy Gradient
4. DRL(四)——Value Function
5. DRL---------DQN详解
6. Datawhale DRL task1 随笔
7. DRL（二）—— RL简介
8. 李宏毅-DRL-S2
9. 李宏毅-DRL-S1
10. CNN五大经典模型:LeNet，AlexNet，GoogleNet，VGG，DRL
更多相关文章...
• PHP round() 函数 - PHP参考手册
• SQL ROUND() 函数 - SQL 教程
• RxJava操作符（五）Error Handling
• Git五分钟教程