李宏毅强化学习笔记【3.Actor-Critic】

时间 2021-01-21

标签强化学习繁體版

原文原文链接

复习策略梯度policy gradient 计算在某一个state，采取action a的概率。到游戏结束为止，获得多少reward。 G很不稳定。除非sample很多。复习Q-learning 用期望代替sample，value-based 第一种方法算V，用π和环境做互动，看到s之后，累计reward期望值是多少。第二种方法，用π，当再s采取a，累计reward是多少。 TD比较稳，M

>>阅读原文<<

1. 强化学习--李宏毅
2. 李宏毅强化学习笔记【0.强化学习导论】
3. 李宏毅强化学习学习笔记-policy gradient and PPO
4. 【笔记2-3】李宏毅深度强化学习笔记（三）Q-Learning
5. 李宏毅强化学习1
6. 【李宏毅-强化学习笔记】p1-p2、PPO
7. 李宏毅深度强化学习笔记（七）Sparse Reward
8. 李宏毅强化学习笔记【5.Imitation Learning】
9. 【完结】李宏毅深度强化学习笔记（五）Sparse Reward
10. 【完结】李宏毅深度强化学习笔记（四）Actor-Critic
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议

最新文章

1. 网络层协议以及Ping
2. ping检测
3. 为开发者总结了Android ADB 的常用十种命令
4. 3·15 CDN维权——看懂第三方性能测试指标
5. 基于 Dawn 进行多工程管理
6. 缺陷的分类
7. 阿里P8内部绝密分享：运维真经K8S+Docker指南”，越啃越香啊，宝贝
8. 本地iis部署mvc项目，问题与总结
9. InterService+粘性服务+音乐播放器
10. 把tomcat服务器配置为windows服务的方法

本站公众号

欢迎关注本站公众号,获取更多信息

1. 强化学习--李宏毅
2. 李宏毅强化学习笔记【0.强化学习导论】
3. 李宏毅强化学习学习笔记-policy gradient and PPO
4. 【笔记2-3】李宏毅深度强化学习笔记（三）Q-Learning
5. 李宏毅强化学习1
6. 【李宏毅-强化学习笔记】p1-p2、PPO
7. 李宏毅深度强化学习笔记（七）Sparse Reward
8. 李宏毅强化学习笔记【5.Imitation Learning】
9. 【完结】李宏毅深度强化学习笔记（五）Sparse Reward
10. 【完结】李宏毅深度强化学习笔记（四）Actor-Critic

>>更多相关文章<<