Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 读书笔记

1. 介绍        本文主要是将深度强化学习应用于多智能的控制。作者提出了一种演员评论方法的改进方法,该方法考虑了其他代理人的行动策略。此外,他们引入了一种培训方案,该方案综合考虑每个代理策略,以产生更强大的多代理策略,并能够成功地学习需要复杂的多智能体协调的政策 2. 核心 这篇文章我阅读了源码,它的网络架构如图1所示   图1  MADDPG         从图中可以看出主要包含了Q和
相关文章
相关标签/搜索