COMA: Counterfactual Multi-Agent Policy Gradients笔记

1. 论文讲了什么/主要贡献是什么 文章介绍了COMA算法,主要解决了在集中训练、分散决策的框架中,全局全局奖励的分配问题。文中受到difference rewards的启发,采用了根据当前代理采取的动作相比于当前代理采取默认动作对全局奖励的提高来判断代理对全局奖励的贡献大小,从而对代理的actor进行有效的更新。并根据算法设计了能够有效估计优势函数的方式。 2. 论文摘要: Cooperativ
相关文章
相关标签/搜索