从零自学,AlphaZero以4个处理器,8小时训练秒杀AlphaGo v18!

本文由 【 AI前线】原创,原文连接: t.cn/RYFc2bm


昨天,谷歌 DeepMind AlphaGo“最年幼后裔”AlphaZero 青出于蓝而甚于蓝,击败一众棋类程序的事迹迅速在业内扩散开。据悉,AlphaZero 在通过 8 个小时训练后即击败打败过李世石的 AlphaGo,通过 12 小时训练后击败世界顶级国际象棋程序 Stockfish,通过 14 小时训练击败世界顶级将棋程序 Elmo。而这只是在一声令下,告诉系统本身走棋并自学以后就能够作到。那么,有没有人对 AlphaZero 的原理感兴趣?它凭什么能轻易战胜天下棋类程序无敌手(固然是目前)?算法


DeepMind 和 AlphaZero

大约三年前,Google 旗下的一家专门从事人工智能开发的公司 DeepMind,将其注意力转移到古老的围棋游戏上。曾经,围棋游戏是全部电脑程序跻身世界级地位须要攀登的一座高峰,甚至被认为是将来十年不会实现的目标!当电脑程序与韩国传奇人物李世石进行公开挑战赛时,几乎全部人都认为在这场别开生面的游戏里,人类必胜。世界顶级围棋选手李在石的历史记录,让他成为有史以来最伟大的围棋棋手之一。固然,此次比赛 AlphaGo 是赢或输不重要,人们在意的是离这个神圣的目标有多接近。可是结果让人大跌眼镜,AlphaGo 以 4-1 打败李世石,掀起围棋界的革命。不能接受这个结果的精英人士,终于开始认可,虽然并非无与伦比,但 AlphaGo 是一台好机器。微信

一年后,传奇继续,AlphaGo 的新版本与世界围棋冠军柯洁对战。身为一名年轻的中国人,他的天才与马格纳斯·卡尔森(Magnus Carlsen)不相上下。16 岁,他赢得了本身的第一个世界冠军;17 岁,他成为世界冠军;19 岁,尽管表现很是好,但他仍以 0-3 败给了 AlphaGo,证实了新 AI 的惊人能力。网络

许多国际象棋棋手和权威人士都想知道,在国际象棋中这个程序的效果怎样,是否是能像在围棋游戏中同样有效?围棋由 19x19 的巨大网格组成,全部的子相同,而且不能移动,游戏中,提早计算是徒劳的,而模式识别才是王道。国际象棋则很是不一样,在国际象棋中,知识和模式识别的价值毋庸置疑,但这个游戏很是讲究战术,只要简单地计算出对手就能够弥补知识的缺失。不只电脑是这样,人类也是如此。post

DeepMind 战胜围棋冠军以后还能作什么呢?仅是能把比赛结果作得更好,好比把战绩从 3-0 提升到 20-0?固然不是。AlphaGo 已经成为了一种内部测试试金石,若是想要测试一个新的自学 AI 效果如何,只须要把它丢给 AlphaGo,看孰胜孰负就能够了。学习

DeepMind 训练的最新版本 AI 被称为 AlphaZero,与“前辈”相比,它有几个重要的不一样。首先,它并无通过大量训练,从零开始。其次,它只接受了简单的规则,除此以外没有任何其余信息输入。然而,结果却使人震惊,在短短的三天内,彻底自学成才的 Go 程序比曾经击败过李世石的版本更强大,而这是以前的 AI 一年时间才能完成的。三周内,它又击败了曾战胜柯洁的 AlphaGo 版本。值得注意的是是,李世石版本的 AlphaGo 使用了 48 个高度专业的处理器来建立程序,而这个新版本只用了 4 个!测试

                                    (AlphaGo 进阶,DeepMind)人工智能


AlphaZero 自学国际象棋spa

挑战国际象棋可能看起来仍然是个不一样寻常的任务。毕竟,DeepMind 经过 Go 展现了在还没有被解决的游戏里近乎革命性的突破,然而,20 年前“深蓝”已经打败了国际象棋,现现在,一款好的智能手机也能击败国际象棋冠军。这样作的意义是什么?线程

           (Garry Kasparov 和 DeepMind 创始人 Demis Hassabis)orm

DeepMind 的创始人德米斯·哈萨比斯(Demis Hassabis)与国际象棋的渊源颇深,他自己就是一名神童,13 岁时在全球 14 岁如下象棋选手中的世界排名为第 2,仅次于 Judit Polgar。他最终离开了国际象棋去追求其余的东西,好比 17 岁建立本身的电脑游戏公司。但人们仍然会有疑问:专一于国际象棋的 AlphaZero 能作到多好?它难道仅是一个聪明的,只论输赢的 AI?仍是会有什么特别的地方?

David Silver 教授解释道,AlphaZero 可以独立学习以提升算法速度,而不是依靠分析大量数据,其中,原理算法的效率是最重要的因素。


成为一个新的范例

12 月 5 日,DeepMind 团队在康奈尔大学发表了一篇名为《使用通用强化学习算法自我掌握国际象棋和将棋》(《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》)的新论文,结果使人咋舌。AlphaZero 能作到的不只是掌握这个游戏,并且以难以想象的方式达到了新的高度。在与 Stockfish 的对战中,它以 64:36 的比分赢得比赛,并且是零败绩(28 胜 72 负)!

值得注意的是,Stockfish 是在运行速度快 900 倍的计算机上运行的!事实上,AlphaZero 每秒钟计算大约 8 万个位置,而用 64 个线程(多是一个 32 核心计算机)在 PC 上运行的 Stockfish 每秒能够计算 7000 万个位置。为了更好地理解 Stockfish 如何一败涂地,设想若是另外一个版本的 Stockfish 运行速度慢了 900 倍,这至关于大约少走棋 8 步!

《使用通用强化学习算法自我掌握国际象棋和将棋》论文中讲道:“AlphaZero 经过使用其深层神经网络更有选择性地集中在最优变体——相似 Shannon 最初提出的更加”类人“的搜索方法上,来弥补评估数量较少的缺陷 。图 2 表示,AlphaZero 每一个玩家以 Elo 规模计算的思考时间,与 Stockfish 和 Elmo 40 毫秒的思考时间相比的可扩展性。AlphaZero 的 MCTS 思惟时间比 Stockfish 和 Elmo 效率更高,这使得人们广泛认为 alpha-beta 搜索在这些领域本质上是优越的。

(此图代表,AlphaZero 的思考时间越长,效率比 Stockfish 更优)换句话说,AlphaZero 不像如今国际象棋引擎所使用的混合强制的方法,而是向另外一个彻底不一样的方向,选择一种模拟人类思惟方式、极具选择性的搜索方法。一个顶尖的玩家可能在一致性和深度上超过较弱的对手,但即便是与最弱的计算机程序相比,人类的计算能力也仍然不能望其项背,由于人类走棋依靠的是纯粹的知识。尽管加里·卡斯帕罗夫(Garry Kasparov)输给了深蓝(Deep Blue),Deep Blue 每秒钟的计算速度能够达到 2 亿个位置,咱们仍不能肯定它是否真的比 Garry Kasparov 聪明。若是 AlphaZero 真的可以使用它的理解力,让对手 900 倍的速度仍能够胜出,那么它就多是一个重大的范式转变。


AlphaZero 如何走棋?

因为 AlphaZero 没有接受任何关于象棋的知识,这意味着不存在博弈或开放理论,它必须依靠本身发现开放理论。并且,这只是 24 小时自学的结果。DeepMind 团队制做了图表,展现了它从发现开放理论,到变得更增强大的图表。

AlphaZero 的首席科学家 David Silver 教授解释道,AlphaZero 在围棋游戏中学习开放理论,并逐渐择优弃劣,在国际象棋中也是如此。

在上面的图表中,咱们能够看到,在比赛初期,AlphaZero 热衷于使用法兰西防护(French Defense),但两个小时后开始愈来愈少使用这种方法。

卡罗一坎防护(The Caro-Kann)的效果更好,并在 AlphaZero 的开放选择中占据了首要位置,直到它也逐渐被淘汰。那么,AlphaZero 在学习过程结束时喜欢哪些开放理论?答案是英格兰开局(The English Opening )和后翼弃兵(Queen's Gambit)!

须要注意的是,这与通常的引擎游戏有所不一样。现代的国际象棋引擎专一于活动,并有特殊的保护措施,以免被逼入死角位置,由于它们的理解力有限,经常在乎识到状况以前就陷入了死胡同。AlphaZero 没有这样的问题,能够向王蛇同样置对手于死地,它使人印象深入的地方还在于其可以找到引擎都发现不了的策略。

将来在哪里?

那么,这个结果对象棋 AI 和其余领域意味着什么?恐怕只能用一个被滥用的词“Game Changer”来描述了。深蓝虽然能够被视做 AI 象棋对战的一个突破性的里程碑,但其结果是得益于专门用于对付象棋的高度专业化的硬件设备,只能玩象棋而不能玩围棋或其余种类的游戏。而 AlphaZero 这种彻底开放式的人工智能,可以从最少的信息中学习,并将其提高到很高的水平,它的价值并不在于能在多少比赛中打败人类,而是可以产生实际的用途,如分析疾病、饥荒以及其余真正解决问题的方案。

(数月内,用于建立 AlphaGo 的革命性技术开始出如今 Go 的顶级 PC 程序中)对于国际象棋程序来讲,这可能会帮助在引擎上有所突破。Go 就是这样的,多年来,Go 程序已经没法取得任何有意义的进展,而后出现了 AlphaGo。一篇论文详细介绍了开发和使用 AlphaZero 的全部技术和算法,以供人们获取信息参考追随他们的脚步。几个月内,Crazy Stone 等顶级程序的新版本开始提供应用了深度学习的引擎,使得效率大大提升。

文章来源:en.chessbase.com/post/the-fu…

关注咱们的微信号"AI前线",后台回复“AI”可得到《AI前线》系列PDF电子书

相关文章
相关标签/搜索