JavaShuo
栏目
标签
2020李宏毅学习笔记——69 RL Advanced Version 5.Q-learning(Continuous Action)
时间 2021-01-13
原文
原文链接
连续行动: 在某些情况下,action是一个连续向量(比如驾驶类游戏,需要决定一个连续的角度) 在这种情况下,Q learning 并不是一个用来寻找最佳action的好方法 解决方式一: 采样一系列行动,看哪个行动会返回最大的Q值 解决方式二: 使用梯度上升来解决这个优化问题(具有较高的计算成本) 解决方式三: 设计一个网络来使得这个优化过程更简单 这里 ∑ 和 μ 是高斯分布的方差和均值,因此
>>阅读原文<<
相关文章
1.
2020李宏毅学习笔记——70 RL Advanced Version 6.Actor-Critic
2.
2020李宏毅学习笔记——65 RL Advanced Version 1.Policy Gradient
3.
2020李宏毅学习笔记——66 RL Advanced Version 2.Proximal Policy Optimization
4.
2020李宏毅学习笔记——71 RL Advanced Version7.Sparse Reward
5.
2020李宏毅学习笔记——67 RL Advanced Version 3.Q-learning(basic idea)
6.
2020李宏毅学习笔记——72 RL Advanced Version8.Imitation Learning
7.
2020李宏毅学习笔记——9. Backpropagation
8.
李宏毅 2020 Machine Learning
9.
2020李宏毅学习笔记——64.Deep Reinforcement Learning
10.
李宏毅深度强化学习笔记(四)Q-learning(Advanced Tips)
更多相关文章...
•
您已经学习了 XML Schema,下一步学习什么呢?
-
XML Schema 教程
•
我们已经学习了 SQL,下一步学习什么呢?
-
SQL 教程
•
Tomcat学习笔记(史上最全tomcat学习笔记)
•
适用于PHP初学者的学习线路和建议
相关标签/搜索
李宏毅
version
qlearning
continuous
advanced
学习笔记
李宏毅机器学习(2017)
Lua学习笔记5
MongoDB学习笔记5
PHP教程
Thymeleaf 教程
MyBatis教程
学习路线
初学者
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
shell编译问题
2.
mipsel 编译问题
3.
添加xml
4.
直方图均衡化
5.
FL Studio钢琴卷轴之画笔工具
6.
中小企业为什么要用CRM系统
7.
Github | MelGAN 超快音频合成源码开源
8.
VUE生产环境打包build
9.
RVAS(rare variant association study)知识
10.
不看后悔系列!DTS 控制台入门一本通(附网盘链接)
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
2020李宏毅学习笔记——70 RL Advanced Version 6.Actor-Critic
2.
2020李宏毅学习笔记——65 RL Advanced Version 1.Policy Gradient
3.
2020李宏毅学习笔记——66 RL Advanced Version 2.Proximal Policy Optimization
4.
2020李宏毅学习笔记——71 RL Advanced Version7.Sparse Reward
5.
2020李宏毅学习笔记——67 RL Advanced Version 3.Q-learning(basic idea)
6.
2020李宏毅学习笔记——72 RL Advanced Version8.Imitation Learning
7.
2020李宏毅学习笔记——9. Backpropagation
8.
李宏毅 2020 Machine Learning
9.
2020李宏毅学习笔记——64.Deep Reinforcement Learning
10.
李宏毅深度强化学习笔记(四)Q-learning(Advanced Tips)
>>更多相关文章<<