Generative Adversarial Imitation Learning 论文简析

时间 2021-01-02

原文原文链接

《Generative Adversarial Imitation Learning》2016 1、几个概念：（1） occupancy measure ρπ(s,a)：（2）cost function C(s,a), π策略下的累计回报：（3）causal entropy: (4) 学徒学习公式（5）用RTPO来进行策略更新，保证每个策略更新后前后两个策略的差距