多智能体强化学习之LeCTR

LeCTR(Learning to Coordinate and Teach Reinforcement) 一、简介 LeCTR是一种在Dec-POMDP(Decenteralized Partilly Observable Markov Decision Process)的多个智能体中使用“Learning to teach”方法的RL算法。这些智能体在合适的时机扮演老师或学生的角色,来提供或请
相关文章
相关标签/搜索