奇点到来,超越人类 《Nature论文:人工智能从0-1自学战胜阿法狗 》论文翻译

翻译前言

阿法狗 ZERO以100:0战胜阿法狗 ,引发轰动,论文在Nature发表。 阿法狗 ZERO引发轰动的缘由: 1.彻底自学,超越人类。 2.发展出超越人类认知的新知识,新策略。 3.可以快速移植到新领域算法

纽约客杂志封面

本文是我和好友春(机器学习在读博士,研究方向为天然语言处理,机器学习,深度学习,微信号:zyc973950709)一同翻译,感谢。其中第三章考虑篇幅去掉,具体查看原文,或者私信我。微信

题目(Nature论文)

Mastering the game of Go without human knowledge网络

做者

David Silver1*, Julian Schrittwieser1*, Karen Simonyan1*, Ioannis Antonoglou1, Aja Huang1, Arthur Guez1, Thomas Hubert1, Lucas Baker1, Matthew Lai1, Adrian Bolton1, Yutian Chen1, Timothy Lillicrap1, Fan Hui1, Laurent Sifre1, George van den Driessche1, Thore Graepel1 & Demis Hassabis1架构

摘要

长久以来,人工智能的目标是在富有挑战性的领域中学习出一种从无知幼儿到超级专家的算法。最近,AlphaGo成为了在围棋游戏中战胜人类世界冠军的第一个程序。其中,AlphaGo对下棋位置的预估和选定下棋位置所使用的树搜索算法使用了神经网络。这些网络利用高段位棋手的走棋经过有监督学习的方式来训练,而后经过自我对弈来完成进行加强学习。本篇论文中咱们提出了一种彻底独立的加强学习算法,算法不须要人工数据,或是基于游戏规则的引导或领域知识。AlphaGo变成了本身的老师:训练一个神经网络用来完成AlphaGo的落子预测和对弈的赢家。这个网络同时还提升了树搜索的能力,带来的结果就是可以在下一手中有更高质量的落子选择和更强的自我对弈能力。从无知幼儿开始,咱们新的程序—AlphaGo Zero达到了超级专家的水平,在与以前开发的AlphaGo(指代和李世石对弈的AlphaGo)的对弈中,取得了100-0的完胜。机器学习

引言

利用有监督学习来复制人类专家的决策结果使得人工智能取得了长足发展。然而,专家数据一般须要大量财力,并且也存在不可靠和难以获取的缺点。甚至有的时候获取了可靠的数据以后,也会对经过这种方式训练的系统的性能加以强制限制[5]。于此相反的是,强化学习系统是经过自身的经验来完成训练的,因此在原则上他们是能够超越人类的能力,并在人类经验缺失的领域也能工做。近年来,利用强化学习训练的深部神经网络已经取得了较快的进展。这些系统在电子游戏中已经超越了人类玩家的水平,好比说Atari[6,7]和3D虚拟游戏[8,9,10]。然而,就人类智力而言最富有挑战性的游戏领域—好比说围棋就被普遍的认为是AI领域的重大挑战。这些游戏须要在庞大的搜索空间中完成精确复杂的预判(也就是咱们说的看几步棋)。在这个领域中的全部的通常方法都不能达到人类棋手的水平。函数

AlphaGo是在围棋领域能达到人类超级专家水平的第一个程序,咱们开发的第一个版本—AlphaGo Fan在2015年10月战胜了欧洲围棋冠军Fan Hui(樊麾:法国国家围棋队总教练)。AlphaGo使用了两个深度神经网络:一个是策略网络输出下一步落子位置的几率,一个是价值网络输出对位置的评估(也就是落子胜率)。策略网络经过有监督的学习来精确的预测高段位棋手的落子,以后再经过价值梯度加强学习来完成系统的加强。价值网络经过策略网络的自我博弈来预测游戏的胜方从而完成训练。训练结束以后,这两个网络经过蒙特卡洛树搜索的算法相结合来提供对将来局势的前望。使用策略网络来缩小高几率落子的搜索过程,使用价值网络(结合蒙特卡洛快速走子策略)在树上完成对落子位置的评估。在以后的开发版本中,咱们称为AlphaGo Lee,使用和以前相同的方法,在2016年战胜了Lee Sedol(18项国际冠军)。性能

咱们如今的程序,AlphaGo Zero,和 Alpha Go、Alpha Lee这些以前的版本相比较,在不少方面都有不一样。最重要的是,AlphaGo Zero彻底独立的经过自我博弈加强学习来完成训练,从刚开始的随机博弈开始就没有任何的监督或使用人工数据。其次,它只使用棋盘上的黑白子做为输入特征(以前的AlphaGo有人工构建的许多特征)。第三,只使用一个神经网络,而不是分开的策略网络和价值网络。第四,只使用依赖于单一神经网络的简化版树搜索来评估落子几率和落子对局势的影响,再也不使用蒙特卡洛的方法。为了实现这些方面,咱们开发了一种能在训练过程当中完成前向搜索的加强学习算法,目的是为了快速的提升和精确稳定的学习过程。对这些网络结构差别、搜索算法的不一样已经训练过程的不一样咱们将会在Methods部分作进一步的详述。学习

AlphaGo Zero增强学习理论

咱们的新方法使用具备参数θ的深层神经网络fθ。 该神经网络将位置及其历史的原始图表表明做为输入,输出移动几率和值(p,v)=fθ(s)。 移动几率的向量p表示选择每一个移动a(包括pass),pa = Pr(a | s)的几率。 值v是标量评估,估计当前玩家从位置s获胜的几率。 该神经网络将策略网络和价值网络12的角色结合到单一架构中。 神经网络包括许多残差块的卷积层,批量归一化和整流器非线性(参见方法)。ui

AlphaGo Zero中的神经网络是经过一种新的强化学习算法从自我游戏中进行训练。在每一个位置,执行MCTS搜索,由神经网络fθ指导。 MCTS搜索输出每次移动的几率π。这些搜索几率一般选择比神经网络fθ(s)的原始移动几率p更强的移动;所以,MCTS可能被视为强大的策略改提供者。使用改进的基于MCTS的策略来选择每一个动做,而后使用游戏赢家z做为价值的样本,能够自我搜索 - 能够被视为强大的策略评估运算符。咱们的强化学习算法的主要思想是使用这些搜索算子。人工智能

图1

图1a |在AlphaGo Zero中自我强化学习。

该程序针对本身的游戏s1,...,sT。在每一个位置st中,使用最新的神经网络fθ执行MCTSαθ(参见图2)。根据MCTS计算的搜索几率选择移动, 在〜πt。终端位置sT根据游戏规则得分,以计算游戏赢家z。

图b,AlphaGo Zero的神经网络训练。

神经网络将原始位置st做为其输入,将其传递给具备参数θ的许多卷积层, 而且输出表示移动的几率分布的向量pt和表示当前选手在位置st中获胜的几率的标量值vt。更新神经网络参数θ以最大化策略向量pt与搜索几率πt的类似度,而且使预测的胜者vt和游戏胜者z之间的偏差最小化(参见等式(1))。新参数用于下一次自播的迭代。

在策略迭代过程当中反复22,23:更新神经网络的参数以使移动几率和值(p,v)=fθ(s)更接近匹配改进的搜索几率和自播赢胜者(π,z);这些新参数用于下一次自我播放,使搜索更增强大。图1说明了自我播放训练流水线。 MCTS使用神经网络fθ来引导其模拟 #(参见图2)

图2

搜索树中的每一个边(s,a)存储先验几率P(s,a),访问次数N(s,a)和动做值Q(s,a)。每一个模拟从根状态开始,并迭代地选择最大化上限置信度Q(s,a)+ U(s,a)的移动,其中U(s,a)αP(s,a)/ (1 + N(s,a))(参考12,24),直到遇到叶节点s'。 (P(s',·),V(s'))=fθ(s'),经过网络对该叶位置进行扩展和评估,仅基于两个先验几率和评估。在模拟中遍历的每一个边(s,a)被更新以增长其访问次数N(s,a),而且将其动做值更新为对这些模拟的均值估计,Q(s,a)= 1 / N( s,a)Σs'| s,a→s'V(s')其中s,a→s'表示在从位置s移动a以后,模拟最终达到s'。 MCTS能够被看做是一种自播算法,给定神经网络参数θ和根位置s,计算推荐移动游戏的搜索几率向量,π=αθ(s),与每次移动的指数访问次数成比例,πaαN(s,a)1 /τ,其中τ是温度参数。

神经网络经过自我强化学习进行训练,使用MCTS计算每一个动做的算法。 一,神经网络被初始化为随机权重θ0。在每次后续迭代i≥1时,产生本身计算的游戏(图1a)。在每一个时间步长t,MCTS searchπt=αθi-1(st)使用上述语句执行网络fθi-1,并经过对搜索几率π进行采样来进行移动。当两个玩家经过时,当搜索值降低到阈值如下或当游戏超过最大长度时,游戏终止于步骤T;而后游戏得分,以给予决赛奖励rT∈{-1,+ 1}(详见方法)。每一个数据时间步t存储为(st,πt,zt),其中zt =±rT是游戏赢家。 从步骤t的当前玩家的角度来看。并行地(图1b),新的网络参数θ是从上一次自播的全部时间步长中均匀采样的数据(s,π,z)进行训练的。神经网络(p,v)=fθi(s)被调整为假设预测值v和自播赢者z之间的差别,而且最大化神经网络移动几率p与搜索几率π的类似性。具体来讲,经过对均方偏差和交叉熵损耗求和的损失函数l,经过梯度降低来调整参数θ(p,v)=fθ(s)和l =(z-v)2 -πTlogp + cθ2(1)其中c是控制L2权重正则化水平的参数 (防止过分配合)。

AlphaGo Zero的最终表现

图5
咱们随后使用更大的神经网络和更长的持续时间将咱们的强化学习流程应用于AlphaGo Zero的第二个实例。训练再次从彻底随机的行为开始,持续约40天。 在训练过程当中,生成了二千九百万次自娱自乐的游戏。参数从310万个小批量更新,每一个2048个职位。神经网络包含40个残差块。学习曲线如图6a所示。在扩展数据图5和补充信息中显示了在训练中按期进行的游戏。

图6

咱们经过内部比赛对AlphaGo Fan,AlphaGo Lee和几个之前的Go程序评估了全面训练的AlphaGo Zero。咱们还针对最强大的现有程序,AlphaGo Master - 基于本文中提出的算法和架构的程序,(但使用人力资源和功能) - 在线上击败了最强大的人力专业人员60-0(在咱们的评估中),全部的过程都被容许每次移动5次思惟时间; AlphaGo Zero和AlphaGo Master都在4台TPU的单机上播放; AlphaGo Fan和AlphaGo Lee分别分布在176个GPU和48个TPU上。咱们还包括一个彻底基于AlphaGo Zero的原始神经网络的玩家;这个玩家只是以最大的几率选择了移动。

图6b显示了每一个程序在Elo量表上的性能。原始神经网络,没有使用任何前瞻,实现了Eo评级为3,055。相比之下,AlphaGo Zero的评级为5,185 李(击败Lee Sedol),阿尔法·范(击败范慧)以及之前的Go程序疯狂石,Pachi和GnuGo。每一个程序每次都有5秒的思考时间。 AlphaGo Zero和AlphaGo Master在Google Cloud上的一台机器上播放; AlphaGo Fan和AlphaGo Lee分布在许多机器上。还包括AlphaGo Zero的原始神经网络,其直接选择最大几率pa的移动a,而不使用MCTS。计划以Elo量表评估25:200分差距对应于75%的获胜几率。 AlphaGo Master为4,858,AlphaGo Lee为3,739,AlphaGo Fan为3,144。 最后,咱们评估了AlphaGo Zero的头脑,与AlphaGo Master进行了一场100小时的比赛,并以2小时的时间控制。 AlphaGo Zero赢得89场比赛至11场(见扩展数据图6和补充资料)。

结论

咱们的研究结果全面代表,即便在最具挑战性的领域,纯粹的强化学习方法也是彻底可行的:没有人类的例子或指导,没法超越基本规则领域的知识,有可能训练到超人的层面。 此外,与人类专家培训的数据相比,纯强化学习方法须要训练几个小时,并实现更好的渐近性能。 使用这种方法,AlphaGo Zero击败了AlphaGo的最强大的版本,它们使用手工制做的资源进行了大量的培训。 人类已经从数百万年来玩过的数百万场游戏中积累了Go的知识,共同融入了模式,资源和书籍。 在几天的时间里,Alphaura Zero可以从新发现这些Go知识,以及为最古老的游戏提供新的看法的新颖策略。

翻译仓促,若有错误,欢迎指正~

相关文章
相关标签/搜索