李宏毅强化学习笔记【5.Imitation Learning】

如果没有reward,怎么办 和环境互动,但不能得到reward,只能看着expert的demonstration学习。 判断开车撞人扣多少分很难,收集人开车的例子,人对话的例子是比较简单的。 不知道怎么定reward,但可以收集范例。   1.Behavior Cloning expert做什么,机器就做什么一样的事情。 收集expert的state和action,然后学习一个network,输
相关文章
相关标签/搜索