联手世界冠军，DeepMind用AlphaZero开发国际象棋新规则！网友：我只会马走日

　　做者 | 蒋宝尚、赛文、青暮
安全

　　编辑 | 青暮dom

　　还记得《生活大爆炸》里谢耳朵完虐舍友伦纳德时玩的三维国际象棋吗？异步

　　三维国际象棋或者空间国际象棋指任何一种在空间中（也就是不局限于一个平面棋盘）的棋类游戏。从20世纪早期就有这种象棋形式，最先的版本之一是“德国式空间国际象棋”，并在《星际迷航》系列中频频出现，后来也被用到了《生活大爆炸》中，是典型的理工男影视道具。ide

　　三维国际象棋或许难度过高，但若是只是稍微改改二维的国际象棋规则，会带来什么不同的体验呢？布局

　　只是对于棋类游戏而言，规则很是重要，每每牵一发而动全身。若是改的很差，极可能会致使游戏变得不公平，或者无趣。但要确认新规则的有效性，特别是对于国际象棋这类探索空间很是大的游戏，须要大量的玩家玩大量的游戏后，才能肯定新规则是否公平，新游戏是否有趣。性能

　　有没有更智能的方法呢？学习

　　固然有！这一次，DeepMind创始人Demis Hassabis联手国际象棋世界冠军Vladimir Kramnik，用AlphaZero玩出了新花样。他们尝试了多种不一样的国际象棋变体，每一种变体都对经典国际象棋的规则作了些许改变，并用AlphaZero在新规则下进行自我对弈（self-play）。测试

　　Vladimir Kramnik是俄罗斯国际象棋特级大师，而且2000年至2007年间的国际象棋世界冠军。优化

　　2017 年末，DeepMind 发表了 AlphaZero的论文，AlphaZero是能够从零开始自学国际象棋、将棋和围棋的系统，并最终在这三个棋类游戏上都战胜了世界最顶尖的程序。2018年末，DeepMind 对 AlphaZero 进行全面评估的论文发表在Science封面上。AlphaZero不须要任何内置的人类专业知识，只知道基本的游戏规则，并从随机游戏开始训练，就能实现世界最强。人工智能

　　因此，用AlphaZero来探索新规则下的国际象棋很是合适。

　　论文地址：https://arxiv.org/pdf/2009.04374.pdf

　　9种新型国际象棋

　　设计一套足够吸引人、并且公平的游戏规则并不是易事。现代国际象棋已经发展了几个世纪，若是没有相关经验，盲目修改游戏规则对整个棋局的影响是很难预测的。AlphaZero提供了一种替代性的计算手段来评估棋局的公平性。它能够不断从自身得到的经验中学习，不须要任何人类监督，就能对任何规则改动进行评估进而获得近乎最优的策略。

　　在本研究中，做者使用AlphaZero来创造性地探索和设计新的国际象棋规则。目前人们对费舍尔随机棋（Fischer Random Chess）愈来愈感兴趣，由于其涵盖了经典国际象棋的大量开局理论、职业比赛中高比例的平局的特色，此外还须要双方棋手在开战前进行大量的练习。

　　做者比较了另外9种国际象棋的变体棋种，这些规则的变化能够激发出不少新的战略和战术模式，同时还能使对局接近于原来的水平。经过使用AlphaZero学习每一个棋种变体的最佳策略，咱们就能够清楚，若是采用这些变体，人类高手之间的对局会是什么样子。

　　从定性上看，这些棋种变体具备动态的特色。分析代表，相同棋子在不一样棋种变体中的重要性不一样，一些棋种变体比经典的国际象棋在总体棋局中表现出了更强的决胜性。该发现证实了现代国际象棋有更多规则变化的可能性。

　　规则一直是活的

　　流行的游戏每每会随着时间的推移而不断发展，现代国际象棋也不例外。最初的国际象棋游戏起源于6世纪的印度，而后传到波斯和穆斯林世界，后来传到欧洲和全球。

　　在中世纪，欧洲国际象棋主要仍是以沙特兰兹为基础，这是一种起源于萨珊帝国的早期变体，是以印度的Chaturanga为基础的，在这种变体中，皇后和主教的走法受到更多限制，棋子的威力也不如现代国际象棋，城堡当时还不存在。

　　除了将军之外，还能够经过暴露对方的国王来取胜，即吃掉对方全部其余棋子。在沙特兰兹中，僵局被认为是胜利，而如今则被认为是平局。

　　几个世纪以来国际象棋的演变能够看做是搜索空间复杂性的变化和游戏最终结果的不肯定性变化，现代规则比较重视后者，认为这是国际象棋游戏体验的重要因素。

　　人们对国际象棋进一步发展的兴趣并无消退，特别是近来职业比赛中决定性的对局愈来愈少，选手们对于经典象棋的理论愈来愈依赖，再加上人们对象棋变幻无穷的玩法的好奇心和不断探索的欲望，产生了许多国际象棋的变体。

　　这些变体涉及对棋盘、棋子位置或总体规则的改变，为棋手提供了"一些在普通国际象棋中没法体会到的微妙的有趣的东西"。目前最著名和最流行的国际象棋变体多是Chess960或费舍尔随机棋，其中第一横排的棋子是从960种随机排列中选取的，这使得前期的理论准备变得不可行。

　　国际象棋和人工智能有着千丝万缕的联系。图灵（1953年）提出："能不能制造一台机器来下棋，并逐渐改进它的下法，人们再从它的经验中获取技巧？"

　　虽然计算机国际象棋自20世纪50年代以来稳步发展，但图灵问题的第二部分直到最近才彻底实现，即AlphaZero的诞生。它的出现又催生了新的项目，如Leela Chess Zero和对现有国际象棋引擎的改进。

　　CrazyAra采用了相关的方法来对Crazyhouse（也是一种国际象棋变体）进行了实验，不过它须要从现有的人类游戏数据进行预训练。原始AlphaZero系统的一些特性被证实能够泛化到Atari等领域，即便在没有精确环境模拟器的状况下也能保持其在国际象棋上的性能。AlphaZero还显示出超越游戏环境的能力，最近有研究代表能够将该模型应用在量子动力学的全局优化中。

　　在任何游戏上训练AlphaZero时，并不须要事先的游戏知识。所以，咱们能够快速探索不一样的规则集，并经过定量和定性的比较来肯定所产生的游戏风格。

　　这篇文章中，做者以AlphaZero的视角来研究国际象棋规则的几种假设性变体，进而推测出国际象棋界可能感兴趣的棋种变体。做者用AlphaZero研究了被Vladimir Kramnik公开倡导的No-castling变体，其出如今了2019年12月19日的职业比赛中。

　　当时Luke McShane和Gawain Jones在伦敦国际象棋精英赛期间进行了有史以来第一场特级大师的No-castling比赛。此后，2020年1月在印度金奈举办了第一届No-castling国际象棋比赛，出现了89%的决胜局。

　　规则变动示例

　　更改国际象棋的规则有多种方式，在这项工做中，做者限于考虑原子级变化，以使游戏尽量接近经典的国际象棋。

　　在某些状况下，须要对50步规则进行更改，以免出现游戏没法结束的状况。这是为了保留原始游戏的对称性和美学吸引力，同时但愿经过新的开局、中局或尾局模式以及新颖的开局理论来发现动态的变体。

　　考虑到这一点，做者没有考虑任何涉及棋盘自己、棋子数或棋子布局的更改。表1列出了做者研究的规则变动。目前尚未进行严格的审查，将僵局视为胜利在国际象棋界是一个悬而未决的问题。

　　表1中列出的每一个规则更改均可能以指望或不指望的方式影响游戏。例如，考虑No-castling变体（不容许使用城堡）。不使用城堡的一个可能结果是，若是国王在比赛中暴露更多，而且须要时间来确保国王的安全，那将致使游戏风格更倾向于进攻。

　　然而，因为防护方也有反击的机会，所以没法轻易保护本身的国王可能使攻击成为糟糕的选择。在经典象棋中，玩家一般在发动攻击以前先进行防护。所以，这种改变可能致使比赛变得无趣，以及游戏方式变得更加受限。

　　按照传统，评估规则的惟一方法是让大量的人类玩家长时间玩游戏，直到积累了足够的经验和理解为止。这不只是一个漫长的过程，并且还须要大量玩家的支持。借助AlphaZero，能够自动化这一过程，并在一天内模拟至关于几十年的人类游戏，从而使咱们可以经过计算机测试这些假设，并观察游戏中每一个已考虑变化的新兴模式和理论。

　　表1：对国际象棋规则进行的9种更改的列表。

　　图1用示例布局对每一个变体进行了展现，涉及变体中出现的新战略和战术主题。

　　图1：（a）No-castling中的一个例子：图中展现了两个国王都没有当即得到安全，而且仍处于游戏中场的典型布局。

　　图1：（b）No-castling(10)的一个例子：比赛趋向于进展较慢且更具策略性，以便之后开始出动城堡。在第11步中，首先是黑城堡出动，紧接着是白城堡出动。

　　图1：（c）Pawn-one-square的一个例子：黑方刚将骑士移至a5。在经典象棋中，这可能违反直觉，由于有可能将卒子打到b4，对骑士捉双。可是，这里的卒子不能一口气移动到那个格子，因此黑方的走法是合理的。

　　图1：（d）Stalemate = win的一个示例：原来在经典象棋中平局的布局，如今改成获胜。

　　图1：（e）Torpedo的一个例子：白方须要快速反击，并使用torpedo移动：b4-b6来实现。黑方以Rh1作出回应，白方以另外一个torpedo移动b6-b8 = Q越过皇后。

　　图1：（f）Semi-torpedo的一个示例：将卒子从第3/6横排快速前进的能力使黑方作出了这样的选择：d6-d4，从而造成强制战术。

　　图1：（g）Pawn-back的一个例子：在这里，黑方利用新规则来吃白方的中央卒子（e5），同时经过卒子后移d5-d6，为b7主教打开对角线。

　　图1：（h）Pawn-sideways的一个例子：在牺牲了f2的骑士以后，黑方将卒子进行横向移动f7-e7，用于战术目的，对白方国王打开直线作准备，同时攻击d6上的骑士。

　　图1：（i）Self-capture的一个例子：白方城堡经过Rxh4吃掉本身的卒子，对黑方国王产生威胁。

　　定量评估

　　图2展现了AlphaZero在不一样时间控制条件下的自我对弈。因为在相同条件下以肯定性方式肯定走棋，所以经过对每场比赛的前20步进行与MCTS访问次数成正比的采样来实现多样性。

　　在全部变体中，平局的百分比随着思考时间的延长而增长。这彷佛代表，从理论上讲，这些象棋变体中可能会先肯定起始位置，就像经典象棋同样，并且某些变体更难玩，涉及更多的计算和更丰富的模式。

　　图2：（a）以每步1秒的速度，对每种国际象棋变体用AlphaZero自我对弈10,000局的结果。

　　图2：（b）以每步1分钟的速度，对每种国际象棋变体用AlphaZero自我对弈1000局的结果。

　　表2展现了白方在不一样对局条件下的经验性得分，即对于每一个国际象棋变体：模型训练结束时的自我对弈、每步1秒对局和每步1分钟对局的得分。每步1秒对局和每步1分钟对局的多样性是经过对每盘棋的前20个出棋按其MCTS访问次数比例进行抽样来实现的。

　　表2

　　图3展现了平局率的对比。在两种时间控制下，最具决胜性的变体是Torpedo、Semi-torpedo、No-castling和Stalemate=win，这四种变体也使白方拥有最大的先手优点。

　　图3：（a）每步1秒对局的和棋率对比，对每一个变体使用AlphaZero自我对弈10,000局。

　　图3：（b）每步1分钟对局的和棋率对比，对每一个变体使用AlphaZero自我对弈1000局。

　　图3：（c）每步1秒对局预期得分的对比，对每一个变体使用AlphaZero自我对弈10,000局。

　　图3：（d）每步1分钟对局的预期得分的对比，对每一个变体使用AlphaZero自我对弈1000局。

　　图4代表，相同的开局位置能够根据所考虑的变体提供不一样程度的优点。图中展现了AlphaZero做为白方，进行1000局，每步大约耗时1秒，赢、输、平局的次数，同时始终保持最佳走棋。

　　结果中的随机性源于搜索过程当中MCTS线程的异步执行。所以，这些结果代表，对于如下每种开局，“主线”延续（“main line” continuation）是多么有利：荷兰防护（Dutch Defence）、奇戈林防护（Chigorin Defence）、阿廖欣防护（Alekhine Defence）和王翼弃兵（King’s Gambit）。

　　定性评估

　　为了评估本研究中所考虑的国际象棋变体之间的玩法差别，采起了将变体的定量评估与表明性对局的专家分析相结合的方法。虽然开局的多样性增长了国际象棋变化的吸引力，但走法模式的类型等主观问题不可能彻底定量地捕捉到。

　　所以，为了对吸引力进行定性评估，做者借鉴了Vladimir Kramnik这位象棋特级大师的经验。

　　另外，经过描述典型的模式，但愿为棋手提供洞察力，帮助他们判断这些国际象棋变体的有趣之处。在分析中，使用了前面提到的1,000个1分钟/步的对局以及200个1分钟/步的对局，这些游戏区别在于早期开局。

　　经过观察1,000个1分钟/步的对局，可以评估AlphaZero在每一个国际象棋变体中首选的打法风格。而经过200个1分钟/步的对局，可以观察到不一样开场处理方式的变化模式，以及在每一个规则变化下，哪些开场方式更有但愿赢得比赛。

　　如下是Kramnik对每一个变体进行定性分析的主要总结：

　　No-castling是一种使人兴奋的变体，由于国王的安全每每会影响到双方的安全，容许同时进行攻击和反击，并且当达到平等时，每每是动态的，而不是 "干（dry） "的。摆放国王的多种方法及其时机，给开局的下法增长了复杂性。

　　Pawn one square的变体可能会吸引那些喜欢慢速战略游戏的玩家，由于在设置卒子的时候有可能进行换位。卒子的机动性下降，使其更难发动快速攻击，使游戏总体上不那么具备决胜性。

　　Stalemate=win对开局和中局的影响不大，主要是影响某些终局的评价。所以对棋局来讲，它并无增长局的决胜性，由于能够不依靠残局做为平局而进行防护。所以，这种棋型变化对于绕开已知理论或使棋局在高水平上大幅度提升决胜性的做用不大。

　　Torpedo和Semi-torpedo都会让棋局变得更有活力，更有决胜性，特别是Torpedo会致使棋局各阶段出现变化。另外，因为过路吃兵很难被阻止，因此它们变得很是重要。

　　Pawn-back能够恢复对弱化格子的控制，并消除一些格子弱点。它还引入了打开对角线和格子占用的其余可能性。与直觉相反，尽管一般将棋子向后移动是一种防护性的动做，但鉴于能够将棋子更早地推动，这能够提供更具侵略性的选择，由于始终能够选择将棋子向后移动以覆盖弱化的格子。AlphaZero很是喜欢与对方进行法国防守，这特别有趣。

　　Pawn-sideways很是复杂，即便那些习惯于经典国际象棋的棋手，对此模式有时也是很是 "陌生 "。卒子的结构多变，不可能创造出永久性的卒子弱点。所以，这种棋型变体要求咱们从新思考如何处理任何给定的局面，处理方式会变得很是具体，而且会依靠深刻的计算。另外，重组布阵须要时间，棋手须要利用这些时间来创造出其余类型的优点。AlphaZero在这个变体中的许多对局都是至关有战术性的，有些还涉及到在经典规则下没法实现的新颖战术。

　　Self-capture至关有趣，由于它会选择牺牲本身的棋子。Self-capture能够出如今对局的各个阶段，但并不是每一盘棋都涉及。但它们确实在至关大比例的对局中出现，并且在一些对局中它们会出现更多。例如，Self-capture招数能够用来在进攻中为棋子开档和格子；经过牺牲卒链中的一个卒来打开封等等。

　　总结

　　整个论文的工做集中于：训练了AlphaZero模型来评估国际象棋的棋局。在这些规则变化下训练AlphaZero模型能够帮助咱们在几个小时内有效地模拟“几十年”人类游戏，并能回答问题：在国际象棋变体中，既定理论状况下（developed theory），这盘棋可能会是什么样子？此外，相似的方法能够用于其余类型游戏中的自动平衡游戏机制。

　　为了评估规则变化的后果，做者结合训练模型和自我对弈的定量分析，进行了深刻的定性分析，在分析中发现了，许多经典国际象棋规则不可能出现的新模式和想法。这代表，在本研究考虑的棋谱中，有几个棋谱变体甚至比经典棋谱更具决胜性：Torpedo、Semi-torpedo、No-castling和Stalemate=win。

　　另外，还量化了多种开局玩法，由于决胜性变体可能须要更精确的下法，每步棋的可信选择更少，因此，总体开局多样性和决胜性之间存在负相关。对于每一种国际象棋变体，做者还根据10000场AlphaZero对局的结果估计了每个棋子的“物质价值”，以便令人类棋手更容易理解游戏。

　　在AI科技评论今天推文第三条“《柏拉图与技术呆子》：探讨人类与技术的创造性伙伴关系”留言区留言，谈一谈你对本书的相关见解、期待等。

　　AI 科技评论将会在留言区选出5名读者，每人送出《柏拉图与技术呆子》一本。

　　活动规则：

　　1. 在留言区留言，留言点赞最高且留言质量较高的前 5 位读者将得到赠书。得到赠书的读者请联系 AI 科技评论客服（aitechreview）。

　　2. 留言内容和留言质量会有筛选，例如“选我上去”等内容将不会被筛选，亦不会中奖。

　　3. 本活动时间为2020年9月11日 - 2020年9月18日（23:00），活动推送内仅容许中奖一次。

　　点