Modeling Others using Oneself in Multi-Agent Reinforcement Learning

ICML-18的文章,前几天我自己想的方法,就是对敌方和己方分别应用一个goal目标,只是我一直在考虑怎么从state中抽离出两个goal,而这篇文章思路的确很新奇,但是也有很明显的局限性。 老习惯,先上环境: 文章一共给了三个环境,第一个是coin,第二个是recipe,第三个是door 我先一个一个介绍环境设置,第一个环境是一个合作性质的环境 reward的设置: 有两个agent a1和a2
相关文章
相关标签/搜索