Generative Adversarial Imitation Learning 论文简析

《Generative Adversarial Imitation Learning》2016 1、几个概念: (1) occupancy measure   ρπ(s,a):   (2)cost function   C(s,a),   π策略下的累计回报:    (3)causal entropy:   (4) 学徒学习公式 (5)用RTPO来进行策略更新,保证每个策略更新后前后两个策略的差距
相关文章
相关标签/搜索