协做多智能体强化学习中的回报函数设计

©PaperWeekly 原创 · 做者|李文浩node 学校|华东师范大学博士生算法 研究方向|强化学习c# 下面总结几篇涉及到为使得多智能体强化学习(MARL)算法可以更好地解决协做问题,而对智能体回报函数(reward function)进行设计的近年论文。这些论文主要可分为如下两个方向:1)解决多智能体社会困境(social dilemma)问题;2)解决多智能体探索(exploratio
相关文章
相关标签/搜索