JavaShuo
栏目
标签
RL:强化学习在任务式对话领域的优势
时间 2021-01-18
标签
NLP
繁體版
原文
原文链接
一、强化学习与监督学习的区别 强化学习是通过与环境交互获取reward来更新agent网络参数的。 监督学习是通过已有的标签数据来更新agent网络参数的。 强化学习并不需要正确的“输入/输出对”数据,强化学习‘强’就是因为其训练过程不需要准备大量的带标签的训练样本,它重视的是环境给予的反馈,训练是一个交互学习的过程。 监督需要大量正确的“输入/输出对”数据,它重视的是teacher作出的评判,训
>>阅读原文<<
相关文章
1.
强化学习(RL)
2.
强化学习介绍(RL)
3.
强化学习【RL】推荐
4.
【RL】强化学习的基本思想
5.
Java优化 - 领域对象
6.
中文任务型对话系统中的领域分类
7.
深度学习在图像领域的几大任务
8.
强化学习 优势函数(Advantage Function)
9.
SOLIDWORKS在工业自动化领域的优势
10.
深度强化学习CS285-Lec17 Distributed RL
更多相关文章...
•
MySQL的优势(优点)
-
MySQL教程
•
Eclipse 任务管理
-
Eclipse 教程
•
TiDB 在摩拜单车在线数据业务的应用和实践
•
适用于PHP初学者的学习线路和建议
相关标签/搜索
强化学习
Hive任务优化
领域服务
领域
强化学习篇
强势
优势
对象的学习
任务
PHP教程
Hibernate教程
SQLite教程
学习路线
代码格式化
跨域
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
部署Hadoop(3.3.0)伪分布式集群
2.
从0开始搭建hadoop伪分布式集群(三:Zookeeper)
3.
centos7 vmware 搭建集群
4.
jsp的page指令
5.
Sql Server 2008R2 安装教程
6.
python:模块导入import问题总结
7.
Java控制修饰符,子类与父类,组合重载覆盖等问题
8.
(实测)Discuz修改论坛最后发表的帖子的链接为静态地址
9.
java参数传递时,究竟传递的是什么
10.
Linux---文件查看(4)
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
强化学习(RL)
2.
强化学习介绍(RL)
3.
强化学习【RL】推荐
4.
【RL】强化学习的基本思想
5.
Java优化 - 领域对象
6.
中文任务型对话系统中的领域分类
7.
深度学习在图像领域的几大任务
8.
强化学习 优势函数(Advantage Function)
9.
SOLIDWORKS在工业自动化领域的优势
10.
深度强化学习CS285-Lec17 Distributed RL
>>更多相关文章<<