COMA: Counterfactual Multi-Agent Policy Gradients笔记

时间 2021-07-12

原文原文链接

1. 论文讲了什么/主要贡献是什么文章介绍了COMA算法，主要解决了在集中训练、分散决策的框架中，全局全局奖励的分配问题。文中受到difference rewards的启发，采用了根据当前代理采取的动作相比于当前代理采取默认动作对全局奖励的提高来判断代理对全局奖励的贡献大小，从而对代理的actor进行有效的更新。并根据算法设计了能够有效估计优势函数的方式。 2. 论文摘要： Cooperativ

>>阅读原文<<