【李弘毅深度强化学习】8.Imitation Learning

本节课我们主要研究的是“Imitation Learning”(模仿学习) Imitation Learning也被叫做“示范”或者“学徒学习” 使用这种方法的情况通常是这样的:1,agent可以和环境进行交互,但是通常是无法获得具体明确的reward。2,在一些实验中是无法明确定义reward的。3,有的时候我们定义的reward是不准确的,容易造成很大困扰的 虽然reward是很难定义的,但是
相关文章
相关标签/搜索