Lee Hung-yi强化学习 | (5) Q-learning用于连续动作 (NAF算法)

时间 2021-01-13

标签 Lee Hung-yi强化学习繁體版

原文原文链接

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv，原专栏地址课程视频课件地址普通的Q-learning比policy gradient比较容易实现，但是在处理连续动作（比如方向盘要转动多少度）的时候就会显得比较吃力。因为如果action是离散的几个动作，那就可以把这几个动作都代到Q-function去算Q-value。但是如果action是连续的，此时a

>>阅读原文<<

1. 深度强化学习——连续动作控制DDPG、NAF
2. 深度强化学习——连续动做控制DDPG、NAF
3. 强化学习——Qlearning
4. 强化学习--QLearning
5. 强化学习——Qlearning——value based
6. 强化学习学习总结（一）——Qlearning
7. 强化学习学习总结（二）——QLearning算法更新
8. 强化学习连续动做，离散动做算法选择
9. 强化学习——DQN算法
10. Lee Hung-yi强化学习 | (8) Imitation Learning
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• 适用于PHP初学者的学习线路和建议
• Kotlin学习（一）基本语法

最新文章

1. 「插件」Runner更新Pro版，帮助设计师远离996
2. 错误 707 Could not load file or assembly ‘Newtonsoft.Json, Version=12.0.0.0, Culture=neutral, PublicKe
3. Jenkins 2018 报告速览，Kubernetes使用率跃升235%！
4. TVI-Android技术篇之注解Annotation
5. android studio启动项目
6. Android的ADIL
7. Android卡顿的检测及优化方法汇总（线下+线上）
8. 登录注册的业务逻辑流程梳理
9. NDK(1)创建自己的C/C++文件
10. 小菜的系统框架界面设计-你的评估是我的决策

本站公众号

欢迎关注本站公众号,获取更多信息

1. 深度强化学习——连续动作控制DDPG、NAF
2. 深度强化学习——连续动做控制DDPG、NAF
3. 强化学习——Qlearning
4. 强化学习--QLearning
5. 强化学习——Qlearning——value based
6. 强化学习学习总结（一）——Qlearning
7. 强化学习学习总结（二）——QLearning算法更新
8. 强化学习连续动做，离散动做算法选择
9. 强化学习——DQN算法
10. Lee Hung-yi强化学习 | (8) Imitation Learning

>>更多相关文章<<