开发AI学习模型 训练AI与人类合做玩游戏

DeepMind最近发布了一项新的开发培训学习AI模型,并进行了深刻学习。在复杂的多人在线3D游戏《雷神之锤III竞技场》的升旗竞赛场景中,AI玩家已经达到了人类水平的表现,而且能够成功地与人类玩家合做,不只如此。 AI模型的研究结果也能够扩展到《雷神之锤III竞技场》一个完整的游戏场景,它展现了多智能体训练在AI领域发展的潜力。 学习

这项研究的目标是多代理学习,即每一个代理人必须独立行动并学习与其余代理人进行互动和协做。 DeepMind指出,有数十亿人生活在地球上,每一个人都有本身的目标和活动,但仍然可以经过团体组织和社会汇集在一块儿,展现集体智慧,这是DeepMind但愿AI玩家学习的东西,但这是也是一项很是艰巨的任务,由于环境一直在变化。

为了研究这个难题,DeepMind使用3D第一视图多人在线游戏来训练表明最流行类型的游戏的AI模型,而且因为沉浸式游戏玩法,能够收集数百万个游戏。玩家的想象力还可使AI学习策略,技巧,手眼协调和团队合做。对于AI玩家来讲,挑战是直接从原始像素数据中学习并生成动做。这种复杂性也使得第一个多人在线游戏的视角已成为一个丰富的AI培训资源。代理

首先,DeepMind训练AI玩家学会像其余玩家同样行动,并学习与同一团队中的玩家合做。不管是AI仍是人类球员,旗帜比赛的规则都很简单,但动态变化很复杂,两支球队各自的球员应该在他们给定的地图上拿走另外一支球队的旗帜并带回他们球队的旗帜。与此同时,他们必须保护团队的旗帜。若是您点击持有团队旗帜的敌对玩家,您能够将旗帜返回原始旗帜。在基地,5分钟内拥有最多旗帜的球队获胜。cdn

从游戏AI玩家的角度来看,得到旗帜的比赛须要玩家与团队合做以对抗敌人。为了使研究更有趣,DeepMind为升旗比赛增长了一些变量,每场比赛的地图配置都不一样。所以,AI玩家被迫寻找共同的策略,而不是依靠内存映射来完成fun88公益任务。此外,为了确保公平的竞争环境,AI玩家和人类玩家以相似的方式玩旗帜。在游戏中,AI播放器观察像素图像的流数据并经过模拟游戏控制器生成执行动做。blog

DeepMind使用的加强型学习有三个概念。首先,DeepMind训练一组AI玩家,而不只仅是一个。所以,AI能够互相学习,提供多个队友或敌人,其次,每一个AI玩家都会学习你本身的内部奖励信号,这样AI就会产生本身的内部目标,好比抓住旗帜。第三,AI玩家执行游戏的时区分为快速和慢速,以提升AI对内存的使用并生成一致的动做序列能力。游戏

相关文章
相关标签/搜索