王亮:游戏AI探索之旅——从alphago到moba游戏

欢迎你们前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~react

本文由云加社区技术沙龙 发表于云+社区专栏算法

演讲嘉宾:王亮,腾讯AI高级研究员。2013年加入腾讯,从事大数据预测以及游戏AI研发工做。目前主要从事MOBA类游戏AI相关的研发工做。小程序

img

今天分享的课题是游戏AI探索之旅。本次分享分为四部分,第一部分,什么是游戏AI,游戏AI为何对如今的游戏很是重要;第二部分,业界和工业界对于作游戏AI主要的方法,以及如今业界一些主流的游戏上的进展。第三部分,结合基于公司自有的MOBA游戏,分享一下咱们作的一些探索研究及如今的进展;第四部分,会简单介绍一下基于深度学习方法来作游戏AI,对于游戏开发者来讲须要提供哪些环境便于AI的开发。但愿经过今天的分享能给你们以后工做或者接下来学习上带来一些的启发和思考。框架

什么是游戏AI,对于游戏开发者而言是要增进用户体验,提高游戏玩家的活跃度,方法主要是基于一些人工规则的方式。而对于学术界来讲目标是最大化赢的几率,而如今主要是基于学习的方法。学习

几乎每款游戏都有本身的游戏AI。棋类的(深蓝、Alphago)、体育类的足球篮球、角色扮演类游戏……越复杂的游戏对AI的依赖程度越高。AI在游戏中经常使用的方式:人机对战:AI为游戏提供一种玩法,玩家能够选择与游戏AI对战去熟悉游戏;平衡性测试:辅助游戏设计开发,如:游戏数值改变,AI能够用于验证测试数值变化带来的影响;对于射击类的游戏,AI能够用于探索地图的探索等。测试

img

通用的游戏AI的设计,包含三部分: 感知系统、决策系统、导航系统;游戏AI的决策操做基于必定的时间粒度进行循环工做。大数据

img

接下来介绍一下经常使用的游戏AI方案,游戏AI经常使用方法分为三类:1) 工业界经常使用的行为树、有限状态机及势力图,优势:实现逻辑清晰,不足:固定逻辑执行,容易被玩家识破,复杂逻辑难实现; 2) search方法,经常使用的方法:遗传算法、蒙特卡洛搜索树方法等; 3) 基于learning的方法: 监督学习算法、强化学习算法;优化

img

监督学习算法:基于训练数据,难点是抽象状态环境以及执行操做Action,一般Action的定义直接影响模型的上限;对于复杂游戏来说,对于状态s很难定义最优的Action操做。ui

img

强化学习回避SL中如何肯定“正确”A的问题,转而定义reward(例如赢一场比赛reward=10,击杀对方英雄reward=1, 自身死亡reward=-5);强化学习一般用于序列操做决策问题,对于强化学习来讲,特别是复杂游戏,遇到的挑战:1) exploration和exploitation的问题, 2) 对于游戏玩法时间较长,如何解决reward delay问题。设计

img

谈到游戏AI探索研究,目前不少研究者在星际2上探索,目前星际上AI采用目前最强的StarCraft AI由hard-coded程序和learning程序共同实现,且hard-coded部分占大部分;目前最强的StarCraft AI还不能打败业余的中上水平。星际游戏较为复杂,通用设计:将AI根据决策时间长短,分为:strategy,tactics, reactive control 进行分层优化。

img

Alphago掀起了游戏AI的浪潮,它成功超越了人类,它的算法主要由Supervised learning + Reinforcement learning +Monte Carlo tree search三部分组成,它的线下训练须要大量的计算资源。目前DeepMind跟暴雪已经合做开发了一个开放平台,模拟器是很是重要的,若是要作游戏AI相关开发,模拟器是必要的环境,经过模拟器获取数据以及提供一些操做指令能直接操做游戏AI。

img

今年在游戏界或者在游戏AI行业里最有影响力的就是Dota2了,在5个特定英雄等限制条件下AI能力可以超过90%的玩家(截至2018.6.25)。采用的是强化学习的方法。线下训练所使用的资源远远大于Alphago在围棋上使用的资源:12W+CPU,256GPU。

img

接下来介绍咱们在MOBA游戏上的AI研究与探索。王者荣耀是一款即时战略游戏,与Dota,LoL是同类型游戏。MOBA游戏特色:注重英雄的操做,英雄设计较为复杂。介绍AI技术方案以前,首先咱们来看下作MOBA类游戏难点在哪:

img

强化学习在围棋上成功的应用,为何Moba类游戏AI尚未打败人类的职业选手?以王者荣耀这款游戏来分析,从状态训练空间来看,王者的操做基本是在102000,围棋只有10170。操做序列空间也存在巨大差异,致使计算会很是很是大。

img

咱们再看一下王者荣耀跟围棋存在什么样的差别:从AI的个数上来讲,围棋只有一个AI,只需关注黑白子。对于王者来而言倒是有多种对战状况的,5V5,3V3,是多个AI的操做。其次就是肯定性的问题,下围棋落子即定,不存在下完还可能下不成功的问题。而对于战略性游戏倒是非肯定的操做,即便发出了技能也有可能被人打断,因此是非肯定性的操做。对于状态可观测性,围棋能够看到总体的状况,而王者地图对于玩家而言是部分可见,只能看到友方的视野,这样就会涉及到博弈问题:如何去预测敌方的位置。

img

接下来咱们再看下目标学习问题。目标学习是很是重要的,首先须要解决每一个英雄要去哪里的问题,对每一个英雄或者对每类英雄要去的位置和出场是不同的。其次就是选目标的问题:游戏中有七十多个英雄,每一局英雄可能不一致,如何解决英雄不一致的问题?由于AI学的是用户的操做,每一个英雄技能设计不同,有的是方向型的技能,有的是指向型技能,有的是位置型技能。

img

第三个难点是知识表达的问题。若是对于一个复杂英雄如:露娜,李白,玩家没有熟悉一百场练习很难熟练操做这复杂英雄。露娜无限连怎么打,关羽的无限推,李白四字真言,诸葛亮大招躲避。另外每一个英雄有一些技能状态变化的设计,例如说花木兰,它的技能会随着三技能的变动,前两个技能效果也会变。这些如何表示?对于人来讲是游戏常识,难点在于对于AI如何进行表达。

img

对于遇到的主要问题咱们的解决方案:第一是引入框架进行分层,任务分层场景切分。对于知识表达,引入了多模态的特征表达方式:卷积特征+向量特征+ 时序特征;模型采用多深度学习模型结合

img

接下来介绍下王者AI的主要技术解决方案。框架设计主要包含两大组成部分:游戏分析和策略模块。游戏分析模块主要包含:英雄搭配问题,装备策略的分析等。策略执行模块用以解决:接下来去作什么,到达对应地点后如何进行对战的问题。

大局观设计,大局观是解决下一时刻位置问题。具体来讲对于英雄它下一次的热点在哪里?下一次的战斗位置在哪儿?或者它下一次蹲草丛在哪一个位置。微操的设计,微操解决的是场景发生战斗的问题。咱们特征采用多模态方式组织:位置相关信息经过imagelike特征组织,属性信息经过向量特征表征,采用深度学习的Multi-task模型。

img

总体来讲随着强化学习,深度学习方向进展,之前主要是基于规则,如今主要是基于学习方式来研究AI。若是采起基于学习的方式研究AI对于开发者而言须要提供相关的环境便于开发者进行迭代调试。总而言之,MOBA类游戏AI研发遇到不少困难与挑战,但也充满了机会。这是今天的分享,谢谢你们。

问答

AI如何赋能物流?

相关阅读

叶聪:朋友圈背后的计算机视觉技术与应用

冀永楠:OCR的应用锦集及背后技术

吴琛:智慧工地——履约考勤系统的应用实践

云学院 · 课程推荐 | 腾讯顶级技术专家,与你分享小程序开发经验

此文已由做者受权腾讯云+社区发布,原文连接:cloud.tencent.com/developer/a…

搜索关注公众号「云加社区」,第一时间获取技术干货,关注后回复1024 送你一份技术课程大礼包!

海量技术实践经验,尽在云加社区

相关文章
相关标签/搜索