GAIL生成对抗模仿学习详解《Generative adversarial imitation learning》

前文是一些针对IRL,IL综述性的解释,后文是针对《Generative adversarial imitation learning》文章的理解及公式的推导。 通过深度强化学习,我们能够让机器人针对一个任务实现从0到1的学习,但是需要我们定义出reward函数,在很多复杂任务,例如无人驾驶中,很难根据状态特征来建立一个科学合理的reward。 人类学习新东西有一个重要的方法就是模仿学习,通过观察
相关文章
相关标签/搜索