Learning Policy Representations in Multiagent Systems

ICML18关于对手策略建模的文章: 主要顺一下思路: 其中Ei是agent i与其余n个agent对弈,sample出来条轨迹(obs和action对),然后将其中第一条轨迹进行上面一个f(x)映射函数的学习,学得一个映射,这个映射就是对对手的策略建模embedding,然后以这个embedding为基础,在第二条轨迹上进行模仿学习,即基于embedding的基础上在第二条轨迹上的obs和act
相关文章
相关标签/搜索