强化学习（2）-算法总论

时间 2021-01-13

原文原文链接

DRL的基本模型： DRL算法大框架：大脑的执行机构-actor：输入状态s，输出动作a（policy gradient算法）大脑的评判机构-critrc：根据回馈r（外界给的）进行调整。（Q learning）人类也是在本能和价值观影响作用下进行行为，并且价值受经验的影响不断改变。在actor-critic的框架下：有DQN、A3C、UNREAL等算法提出。 DQN- 第一个提出的DR

>>阅读原文<<

1. 强化学习概论2
2. 2. 强化学习方法汇总
3. 强化学习算法的总结
4. 强化学习算法分类总结
5. 强化学习常用算法总结
6. 强化学习算法
7. 强化学习DQN算法
8. PPO-强化学习算法
9. 强化学习算法DQN
10. 强化学习——DQN算法
更多相关文章...
• XML 总结下一步学习什么呢？ - XML 教程
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• Kotlin学习（一）基本语法
• 算法总结-回溯法