李宏毅强化学习笔记【5.Imitation Learning】

时间 2021-01-02

标签强化学习繁體版

原文原文链接

如果没有reward，怎么办和环境互动，但不能得到reward，只能看着expert的demonstration学习。判断开车撞人扣多少分很难，收集人开车的例子，人对话的例子是比较简单的。不知道怎么定reward，但可以收集范例。 1.Behavior Cloning expert做什么，机器就做什么一样的事情。收集expert的state和action，然后学习一个network，输

>>阅读原文<<

1. 李宏毅深度强化学习笔记（八）Imitation Learning
2. 【李宏毅深度强化学习笔记】8、Imitation Learning
3. 机器学习：李宏毅深度强化学习笔记（五）Imitation Learning
4. 8.Imitation Learning模仿学习（李宏毅）
5. 强化学习--李宏毅
6. 2020李宏毅学习笔记——72 RL Advanced Version8.Imitation Learning
7. 李宏毅强化学习笔记【0.强化学习导论】
8. 李宏毅深度强化学习笔记（四）Q-learning（Advanced Tips）
9. 李宏毅学习笔记44.Meta Learning
10. 李宏毅《Deep Learning》学习笔记 - transformer
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议

最新文章

1. springboot在一个项目中启动多个核心启动类
2. Spring Boot日志-3 ------＞SLF4J与别的框架整合
3. SpringMVC-Maven（一）
4. idea全局设置
5. 将word选择题转换成Excel
6. myeclipse工程中library 和 web-inf下lib的区别
7. Java入门——第一个Hello Word
8. 在chrome安装vue devtools（以及安装过程中出现的错误）
9. Jacob线上部署及多项目部署问题处理
10. 1.初识nginx

本站公众号

欢迎关注本站公众号,获取更多信息

1. 李宏毅深度强化学习笔记（八）Imitation Learning
2. 【李宏毅深度强化学习笔记】8、Imitation Learning
3. 机器学习：李宏毅深度强化学习笔记（五）Imitation Learning
4. 8.Imitation Learning模仿学习（李宏毅）
5. 强化学习--李宏毅
6. 2020李宏毅学习笔记——72 RL Advanced Version8.Imitation Learning
7. 李宏毅强化学习笔记【0.强化学习导论】
8. 李宏毅深度强化学习笔记（四）Q-learning（Advanced Tips）
9. 李宏毅学习笔记44.Meta Learning
10. 李宏毅《Deep Learning》学习笔记 - transformer

>>更多相关文章<<