腾讯AI Lab绝悟团队夺冠Kaggle足球AI竞赛


Google Research 与英超曼城俱乐部在 Kaggle 平台上联合举办的 11v11 足球 AI 竞赛 Google Football 近日宣布最终结果:腾讯 AI Lab 绝悟 WeKick 版本(下称绝悟)以 1785.8 的分数得到冠军,且相比于其它队伍优点很是明显。算法


Kaggle 竞赛 google-football 排行榜前十名,来自 https://www.kaggle.com/c/google-football/leaderboardapi


比赛使用的 Google Research Football 环境,是基于开源足球游戏 Gameplay Football 开发的强化学习环境。因为其兼具挑战性和趣味性,一经推出便吸引海内外队伍踊跃参加,截至 12 月中旬,已经吸引了来自世界各地的 1100 多个团队,其中包含多支世界顶级学府和研究机构的科研强队。微信


今年 11 月 28 日,腾讯 AI Lab 宣布与王者荣耀联合研发的策略协做型 AI「绝悟」升级成了彻底体,让 AI 掌握了全部英雄的全部技能。仅一个月后,「绝悟」又在竞争如此激烈的竞赛中以显著优点脱颖而出,足以证实「绝悟」工程开发实力和背后深度强化学习方法的优点。架构


Google Football 竞赛是什么?app



Google Football 是基于全世界最受欢迎的体育运动「足球」打造的「11 个强化学习智能体的合做与对抗」竞赛。在竞胜过程中,其规则与普通足球比赛相似,好比目标都是将球踢入对方球门以及越位、黄牌和红牌规则。在具体细则上也有一些不一样的之处,如比赛分上下半场(各 45 分钟,1500 步,两支球队各开球一次),游戏场景是彻底对称的(因此没有左右换场的必要性)、没有替补球员、没有加时赛、进球多获胜(不然平局)等。框架


不一样于常见足球电子游戏的统一调控式 NPC 球队,Google Football 竞赛的参赛球队中每一个球员都各由一个单独的智能体控制,参赛团队须要实时选择并控制其中一个智能体,与其余内置智能体配合。所以,每一个球员不只须要观察对手的行为,还须要留意己方队员的状况。这须要很是复杂的团队协做和竞争策略。异步


举个例子,当对方球员控球时,己方智能体不只要根据球场上双方球员的分布位置预测控球球员的下一步动做,还须要与己方球员协同如何合规地夺取足球的控制权。且因为球场动态瞬息万变,所以高速的实时决策能力也是必需的。编辑器


绝悟与其余AI配合传球分布式


此外,从零开始彻底采用强化学习方法来训练完整的足球AI实际上也至关困难。与MOBA游戏中不断有经济、血量、经验等实时学习信号不一样,足球的游戏激励很是稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。ide


实际上,正是因为足球运动团队策略的复杂性、多样性和高难度,AI 领域的先驱们很早就已开始尝试基于足球研究人工智能技术。机器人世界杯 RoboCup 在 1992 年应运而生,此后每一年举办机器人足球比赛,一直延续至今。RoboCup 的目标是到2050年,机器人球队能赛过人类足球世界冠军队。然而直到今天,不管是在机器人运动仿真度上仍是机器人团队决策能力上,进展依然缓慢,离目标还有很远的距离。只要看看 RoboCup 机器人摔倒的搞笑视频集锦就能明白这一点。


尽管如此,进步仍旧切实存在。得益于深度强化学习在游戏领域日新月异的发展,从 Atari 游戏到围棋再到多种不一样的电子游戏,AI 智能体在不断的迭代演化中正变得愈来愈强大。这次夺冠的绝悟版本经过两项关键技术实现了优于其它竞争 AI 球队的优点。


WeKick vs SaltyFish(第二名)近期的一局比赛记录,成绩为 3:2


绝悟的夺冠秘籍


和大多数参赛队伍同样,绝悟也主要采用了强化学习和自博弈(Self-Play)来从零开始训练模型的方法。其训练的基础架构是基于「绝悟」彻底体的架构迁移获得的,详情参阅《腾讯绝悟AI彻底体限时开放体验,研究登上国际顶会与顶刊》。基于此,腾讯 AI Lab 又针对足球任务对该框架作针对性改进,使其能适应 11 智能体足球游戏训练环境。


为此,腾讯 AI Lab 部署了一种异步的分布式强化学习框架。虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却获得显著提高,并且还支持在训练过程当中按需调整计算资源。此外,因为 MOBA 游戏和足球游戏任务目标的差别,团队还在特征与奖励设计上进行了扩展和创新。这些改进加上关键性的生成对抗模拟学习(GAIL)方案和 League 多风格强化学习训练方案,最终铺就了绝悟的冠军之路。


架构概况


具体来讲,该模型由一些密集层(每层 256 维)和一个 LSTM 模块(32 步,256 隐藏单元)构成。训练过程采用了一种改进版的近端策略优化(PPO)强化学习算法。学习率固定为 1e-4。参数更新则采用了 Adam 优化器。这套方案能实现很是快速的适应和迭代,且内存占用也较为合理。


在算法上,绝悟整体上采用了一种改进版 PPO 强化学习算法,这与不久以前发布的「绝悟」彻底体的架构一致。简单来讲,PPO 算法的思路在每一个步骤计算更新时不只会保证成本函数尽量地小,并且还会确保与以前策略的误差相对较小。这一策略能克服强化学习难以调试的缺点,在实现难度、样本复杂度和调试难度之间取得合适的平衡。


在价值估计上,采用了「绝悟」彻底体的多头价值(MHV)估计方案,即奖励会被分解为多个头,而后再使用不一样的折现因子汇集到一块儿。采用这一方案的缘由是某些事件仅与近期的动做相关,好比拦截、越位和铲球;另外一些事件则涉及一系列决策,好比进球。所以不一样事件的奖励会具备不一样的权重。


在特征设计上,研究者对标准的 115 维向量进行了扩展,使之包含了更多特征,好比队友与对手的相对姿态(位置与方向)、活动球员与足球之间的相对姿态、标记可能越位的队友的越位标签、红/黄牌状态等特征。这些扩展为训练速度带来了 30% 的效率增益。


除了人工设计的奖励,绝悟还采用了生成对抗模拟学习(GAIL),该方案利用了生成对抗训练机制来拟合专家行为的状态和动做分布,使其能够从其它球队学习。好比某个 AI 球队展示出的「反攻(counter attack)」策略就给研究者留下了深入印象,即接球后退→传到守门员→守门员高传到前场。这是一种相对复杂的序列动做,难以经过人工方法定义其奖励;但使用 GAIL,绝悟能够成功地基于回放(replay)进行学习。而后,再将 GAIL 训练的模型做为固定对手进行进一步自博弈训练,绝悟的稳健性获得了进一步提高。


GAIL 的优点

(WeKick 的奖励设计综合了 Reward Shaping 和 GAIL 两种方案)


经过自博弈强化学习获得的模型有一个自然的缺点:很容易收敛到单一风格;在实际比赛的时候单一风格的模型很容易发生因为没见过某种打法而表现失常,最终致使成绩不佳。因而为了提高策略的多样性和稳健性,绝悟还采用了 针对多智能体学习任务的 League 多风格强化学习训练方案。



其主要流程可简单总结为先专精后综合:


1. 训练一个基础模型,具有必定程度竞技能力,好比运球过人、传球配合、射门得分;

2. 基于基础模型训练出多个风格化模型,每一个模型专一一种风格打法;在风格化模型训练的过程当中会按期加入主模型做为对手,避免过分坚持风格,丢失基本能力;

3. 基于基础模型训练一个主模型,主模型除了以本身的历史模型为对手之外,还会按期加入全部风格化对手的最新模型做为对手,确保主模型的策略具有鲁棒性,可以适应风格彻底不一样的对手。


内部能力评分系统显示,加入对手池训练之后的主模型,能够在基础模型的上提升 200 分,比最强的风格化打法高 80 分。



研究者认为,基于 League 的多风格强化学习和基于 GAIL 的风格学习方法是保证 WeKick 最终获胜的两大关键秘籍。固然,在「绝悟」框架基础上针对足球任务的一些改进设计也必不可少。


展望将来


绝悟 WeKick 版本的总体设计是基于「绝悟」彻底体迁移获得的,而后针对足球任务进行了一些针对性的调整,这也证实了腾讯 AI Lab 开发的「绝悟」的底层架构与方法的通用性,能够预见这类方法将来还有望进一步迁移至机器人等更多领域,从而创造更大的实用价值。


从围棋 AI 「绝艺」到策略决策型 AI 「绝悟」,再到现在的 AI 足球队绝悟 WeKick 版本,腾讯 AI Lab 的深度强化学习智能体步步进化,逐渐向更复杂更多样化的问题迁移,其中的每一次进展都让咱们离通用人工智能终极目标更近了一步。


本文转载自腾讯AI实验室

END



备注:强化

强化学习交流群

关注最新最前沿的强化学习技术,

若已为CV君其余帐号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

本文分享自微信公众号 - 我爱计算机视觉(aicvml)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索