QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning笔记

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning 1. 论文讲了什么/主要贡献是什么 在多代理强化学习中,存在代理单独计算价值函数和完全集中计算价值函数两种方式,前者存在不稳定的问题,后者存在可扩展性差的问题(维度灾难)。作者在介于两者之前的VDN算法的基础上,对从单代理
相关文章
相关标签/搜索