【李弘毅深度强化学习】8.Imitation Learning

时间 2021-01-02

原文原文链接

本节课我们主要研究的是“Imitation Learning”（模仿学习） Imitation Learning也被叫做“示范”或者“学徒学习” 使用这种方法的情况通常是这样的：1，agent可以和环境进行交互，但是通常是无法获得具体明确的reward。2，在一些实验中是无法明确定义reward的。3，有的时候我们定义的reward是不准确的，容易造成很大困扰的虽然reward是很难定义的，但是