JavaShuo
栏目
标签
强化学习--李宏毅
时间 2021-01-12
原文
原文链接
AI = 强化学习+深度学习 Alpha go是在监督学习的基础上,让两个机器对下 聊天机器人问题:训练完之后不知道聊天是否聊的好,可以考虑使用GAN,添加discriminator去判断聊天是否是人类聊天 强化学习的困难: 接收到positive reward的动作是需要其他没有奖励动作的基础的,游戏系统很容易学成只会开枪而不移动(因为开枪有奖励,而移动没有) 系统需要探索新的行为,不能永
>>阅读原文<<
相关文章
1.
李宏毅强化学习1
2.
李宏毅强化学习笔记【0.强化学习导论】
3.
李宏毅强化学习学习笔记-policy gradient and PPO
4.
李宏毅深度学习
5.
【李宏毅深度强化学习2018】P1 Policy Gradient(Review)
6.
【李宏毅-强化学习笔记】p1-p2、PPO
7.
李宏毅深度强化学习笔记(七)Sparse Reward
8.
李宏毅强化学习笔记【3.Actor-Critic】
9.
李宏毅强化学习笔记【5.Imitation Learning】
10.
【完结】李宏毅深度强化学习笔记(五)Sparse Reward
更多相关文章...
•
您已经学习了 XML Schema,下一步学习什么呢?
-
XML Schema 教程
•
我们已经学习了 SQL,下一步学习什么呢?
-
SQL 教程
•
Tomcat学习笔记(史上最全tomcat学习笔记)
•
适用于PHP初学者的学习线路和建议
相关标签/搜索
李宏毅
强化学习
强化学习篇
李宏毅机器学习(2017)
李彦宏
强化
0.强化学习导论
强化学习炼金术
Hibernate教程
PHP教程
Thymeleaf 教程
学习路线
初学者
代码格式化
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
ubantu 增加搜狗输入法
2.
用实例讲DynamicResource与StaticResource的区别
3.
firewall防火墙
4.
页面开发之res://ieframe.dll/http_404.htm#问题处理
5.
[实践通才]-Unity性能优化之Drawcalls入门
6.
中文文本错误纠正
7.
小A大B聊MFC:神奇的静态文本控件--初识DC
8.
手扎20190521——bolg示例
9.
mud怎么存东西到包_将MUD升级到Unity 5
10.
GMTC分享——当插件化遇到 Android P
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
李宏毅强化学习1
2.
李宏毅强化学习笔记【0.强化学习导论】
3.
李宏毅强化学习学习笔记-policy gradient and PPO
4.
李宏毅深度学习
5.
【李宏毅深度强化学习2018】P1 Policy Gradient(Review)
6.
【李宏毅-强化学习笔记】p1-p2、PPO
7.
李宏毅深度强化学习笔记(七)Sparse Reward
8.
李宏毅强化学习笔记【3.Actor-Critic】
9.
李宏毅强化学习笔记【5.Imitation Learning】
10.
【完结】李宏毅深度强化学习笔记(五)Sparse Reward
>>更多相关文章<<