1：2，李世石最后一战被AI击败，惟一打败过AlphaGo的人退役了

时间 2020-01-26

标签最后一战击败惟一打败 alphago 繁體版

原文原文链接

退役赛的最后一局，李世石回到了本身的家乡。对战之地距离李世石的出生地飞禽岛 40 多千米，他曾在飞禽岛度过了他的童年时光，也是在这里决定成为职业围棋选手。
　　12 月 21 日，全罗道新安郡曾岛 EI dorado 度假村，李世石在第 181 手投子认输。这是与 Handol 退役赛对战的最后一局，前两局，李世石一胜一负。最后一盘棋，仍是惜败于 AI。12 岁入段，36 岁正式退役，24 年揽获 14 项国际项冠军和 32 项国内冠军，今后之后，「李世石九段」不会再以职业棋手的身份出如今众人面前。
　　11 月 19 日，李世石向韩国棋院正式递交辞呈，宣告了本身 24 年职业围棋生涯的结束。
　　在接受韩联社采访时，他表示本身之因此选择退役，是由于「AI 不可打败」：「在围棋 AI 出现之后，我发觉即便本身成为第一名，也永远须要面对一个不可打败的实体。」
　　李世石曾经的对手，曾经「绝代双骄」的另外一人——中国围棋职业选手古力九段在得知这一消息以后，在社交平台上公开表示：「此刻只想给他一个大大的拥抱。」
　　当不少人都觉得李世石的最后一战会选择与古力对决时，李世石却选了韩国围棋 AI「Handol」，理由是担忧「最后和他下棋的人会有负担」。
　　这是他自从 2016 年负于 AlphaGo 以后，再一次对战围棋 AI，也是人类棋手第一次与 AI 下升降三番棋。
　　一直以来，人们都认为顶尖人类棋手与 AI 之间的差距在二子到三子之间，但因为历来没有进行过正式比赛的对局，因此真正差距无从得知。李世石提到，本身最终选择下升降棋，也是想确认人类和人工智能之间的差距到底有多少。在对战 Handol 以前，李世石说本身已经有大概 5 个月的时间没有参加过比赛，也几乎没有进行过围棋训练。
　　北京时间 12 月 18 日 12 时，李世石与 Handol 开始第一局对弈。李世石执黑被让两子，按 7 目半还子。前半盘黑棋先拿到右上角实地，胜率一直保持在 80% 以上。随后白棋开始反击，直到第 78 手以前，胜率一直处于上升阶段。
　　转折点出如今李世石的第 78 手（值得一提的是，李世石当年对战 AlphaGo 获胜的惟一一局，胜负手一样是第 78 手）。黑棋吃掉白棋棋筋，加之 Handol 在第 84 手征子失误，只得在第 92 手时投子认输。
　　这场比赛仅用两小时就分出了胜负，在 100 手之内即告结束。尽管李世石表示赛前曾连续练习了十天的被让两子棋，「几乎醒着的时候都在练棋」，但他也表示未能料到本身会在与 AI 的对决中获胜。
　　12 月 19 日，第二局。因为李世石在第一局比赛中获胜，第二局 Handol 再也不让子，李世石仍然执黑先行。
　　这一局，李世石在第 31 手出现误判，然后白棋的胜率预测一直保持在 90% 以上，到了第 40 手之后，胜负已经基本明朗。
　　最终李世石在第 122 步认输。这一局时长 3 小时 20 分钟，至此，李世石与 Handol1:1 战平，而剩下的最后一局尤其关键。
　　人类再次在围棋「人机大战」中取得了一场胜利。谷歌 DeepMind 资深研究员、ALphaGo 主要程序开发者黄士杰曾在看完前两盘对决以后表示，若是再有两年的算法更新和优化，AlphaGo Master 将会是最强的棋手。但 AI 要作到万无一失，仍须要解决 bug 问题。
　　12 月 21 日，最后一局的赛场转移到了李世石的家乡全罗道新安郡。这一场李世石依然受两子执黑挑战 AI，黑棋贴目 7 目半。人类与 AI 在棋盘右下角展开激战。
　　在最后一局中，Handol 解除了大部分限制，在每一步上花费了更多「思考」时间。AI 执白在右下角存活以后，逐渐将胜率从 20% 扳至五五开，李世石的思考时间则逐渐用尽。
　　下午 2 时 50 分左右，李世石进入读秒，此时白棋已在右侧和左上成活，李世石试图经过打劫寻找 AI 的破绽。但李世石的努力并无扭转颓势，在弈至 159 手时，AI 判断李世石的胜率降到 5%。
　　最终，在行至 181 手时，李世石投子认负。这是三局之中最漫长的一局，双方对弈超过四小时。
　　赛后，李世石在接受采访时表示：「这场比赛中，Handol 的表现与前几场相似，若是本身可以再谨慎一点，或许比赛的结果会有所不一样。」对于退役后的工做，李世石尚未作出选择。
　　2、棋坛再无「李世石九段」
　　李世石的退役消息来得忽然，但也算早有苗头。今年 3 月份，李世石在「三一运动一百周年记念对局」中败于柯洁以后，即透露过自身想要「在一年以内」退役的想法。
　　除了没有信心打败 AI，李世石的退役彷佛也和本身与韩国棋院之间的矛盾分不开。在韩国棋院的 24 年中，李世石曾提交过休职申请，也强行退出过棋士会，特立独行的处事方式与其在棋盘上的风格一模一样。
　　李世石 1983 年出生在距离全罗南道新安郡的飞禽岛，爱好围棋的父亲是李世石的第一任导师。6 岁开始接触围棋的李世石是兄弟姐妹中年龄最小的一个，但也是天赋最高的一个。9 岁时，因大哥李相勋成功入段，父亲终于也下定决心将李世石送到有「韩国围棋山脉」之称的首尔权甲龙围棋道场学棋。
　　3 年零 6 个月后，年仅 12 岁的李世石成功入段，今后在韩国棋院开始了职业围棋生涯。24 年来，李世石已经得到了 14 个国际比赛冠军，32 次国内比赛冠军，皆仅次于李昌镐，高居历史第二。
　　2000 年，当时的「李世石三段」在巴斯卡杯天元战和倍达王战中击败柳才馨九段和刘昌赫九段，连获两个冠军，成为围棋史上成就最高的「三段」选手。但他却拒绝参加升段赛，声称「段位并不能体现实力」。为此，韩国棋界不得不废除了升段赛，改以成绩定段位。2001 年，李世石在得到第五届 LG 杯世界棋王赛亚军后升至七段，2003 年获 LG 世界棋王战冠军，直升九段。
　　李世石的围棋生涯中曾有一次「妥协」的退役风波，2009 年 6 月，李世石曾向韩国棋院提交过休职书，称因「韩国棋院对棋手不合理的约束」而身心疲惫，计划从当日起休职到 2010 年末。半年后，李世石复职，但桀骜不驯的性格并未改变。2016 年，李世石又与哥哥李相勋一块儿，因韩国棋院「克扣奖金」的缘由退出了棋士会。
　　尽管在围棋上已经登峰造极，真正让李世石名声大噪的仍是与 AlphaGo 的「人机大战」。
　　李世石在 2016 年 3 月与 AlphaGo 的一番激战，被认为是人工智能历史上的一次里程碑事件——虽然李世石以 1：4 的比分落败，但在比赛的第四局，李世石的惊天翻盘却让他成为了迄今为止惟一一个打败过 AlphaGo 的棋手。他在第 78 手出人预料的一挤，让 AlphaGo 后续的反应出现失常，完全改变了战局——这与这次在第一局中打败 Handol 的场面何其类似。
　　李世石面对 AlphaGo 的那一次胜利，曾经为人类打败人工智能带来了一线但愿，但后来李世石将胜利归功于 AlphaGo 程序的缺陷。「个人第 78 手并不该该用直接的方式应对。」
　　固然，这样的 bug 不止存在于 AlphaGo。李世石曾说：「在腾讯『绝艺』中，这样的 bug 至今仍然会出现。即便如今的绝艺已经能够作到让人类两子胜利了，但它仍然会以奇怪的方式输掉比赛，这是由于一个 bug 所致。」
　　在前三场比赛输给 AlphaGo 以后，他曾感到至关沮丧。「我不多看网上对个人评论，可是输给了阿尔法狗之后，我很好奇你们怎么看我。意外的是，不多有人批评我。」
　　4、人类真的永远不会再打败 AI？
　　这一次对战 Handol，李世石赚了 2 亿韩元（约合 121 万元人民币），包括 1 亿 5000 万韩元的基本出场费，每胜一局额外得到 5000 万韩元的奖金。
　　自从 2016 年 AlphaGo 大战李世石以后，围棋 AI 即被推上风口浪尖。基于近年以来深度学习和强化学习的发展，AlphaGo 和各种围棋 AI 的不断升级，人们一度认为，人类再不可能打败 AI。
　　Handol 是韩国 NHN 娱乐公司推出的一款围棋 AI，用以训练的数据来自 1999 年以来 NHN 公司在游戏业务方面的大量积累。与 AlphaGo 的进化路线类似，2017 年 12 月，Handol1.0 出世，当时已拥有人类职业棋手 9 段棋力，能够实如今人类棋谱及既定模式的基础上对棋局进行预测，到了 Handol 2.0 已经可以脱离棋谱，本身与本身下棋。在 NHN 看来，Handol2.1 的实力已经超越了当初对战李世石的 AlphaGo。
　　2019 年 1 月，Handol 连续打败了申旻埈九段、李东勋九段、金智硕九段、朴正焕九段和申真瑞九段五位韩国顶级围棋选手，8 月在山东举行的「中信证券杯」世界智能围棋公开赛中，Handol 也捧回了季军奖杯。
　　在「Handol」首局落败以后，NHN 公司人工智能项目的负责人李昌律推测称，「输掉这一局的缘由 kennel 在于「Handol」整体学习量尚且不足，缺乏对开局让两子和让三子等棋局的学习」。
　　据「Handol」研发团队估算，「Handol」的棋力水平至关于世界围棋中的 4500 积分，而目前李世石的积分为 3414 分，柯洁、朴廷桓等人类顶尖棋手的积分接近 3700 分。
　　在围棋 AI 领域，棋力最高的选手仍然是 DeepMind 公司的 AlphaGo，它也是第一个击败人类围棋世界冠军的人工智能程序。在 2017 年柯洁与 AlphaGo 对战以后，David Silver、谷歌大脑负责人 Jeff Dean 等人曾在乌镇围棋峰会现场对 AlphaGo 背后的技术进行过解读。
　　AlphaGo 最初主要是依靠大量学习人类棋手的棋谱来提升棋艺，以后进入到彻底的自我深度学习阶段，也就是彻底摒弃人类棋手的思惟方式，按照本身（左右互搏）的方式研究围棋。结合监督学习与强化学习的优点，AlphaGo 经过训练造成一个策略网络，将棋盘上的局势做为输入信息，并对有所可行的落子位置造成一个几率分布。而后训练一个价值网络对自我对弈进行预测，以-1（对手的绝对胜利）到 1（AlphaGo 的绝对胜利）的标准，预测全部可行落子位置的结果。
　　AlphaGo 真正的优点来源于将策略网络和价值网络整合进基于几率的蒙特卡罗树搜索（MCTS）中。在获取棋局信息后，AlphaGo 会根据策略网络探索哪一个位置同时具有高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程当中被系统最繁琐考察的位置将成为 AlphaGo 的最终选择。通过先期的全盘探索和过程当中对最佳落子的不断揣摩，AlphaGo 的探索算法就能在其计算能力之上加入近似人类的直觉判断。2016 年 1 月 28 日，击败李世石的 AlphaGo 版本登上《Nature》封面，随后在 3 月即 4:1 击败李世石，名声大振。
　　和人类不一样，AlphaGo 没有先入为主的概念，这偏偏也是全部围棋 AI 的优点所在：尽管有时 AI 的落子显得违反直觉，但确实是最合理的。
　　乌镇以后，DeepMind 宣布 AlphaGo 今后不会再参与比赛，但在几个月后推出了更强版本的围棋 AI「AlphaGo Zero」。若是说 AlphaGo 版本最初还须要观察数千场人类围棋比赛来训练如何学习围棋，AlphaGo Zero 则直接跳过这一步，从本身彻底随机的下围棋开始来学习围棋，几天以内即超越人类棋手的水平，而且以 100:0 的比分战胜了以前打败世界冠军的 AlphaGo。
　　早期的 AlphaGo 使用「决策网络」选择下一步棋的位置，使用「价值网络」预测每个位置上决定的胜者。这两个网络在 AlphaGo Zero 中被结合起来，从而使其更高效地训练和评估赛况。而且，AlphaGo Zero 版本只需 4 块 TPU 便可运行。
　　上个月，DeepMind 又推出了名为 MuZero 的「通用版」AlphaGo，在国际象棋、日本将棋和围棋的精确规划任务中能够匹敌 Alpha Zero，在围棋中甚至超过了 Alpha Zero。但与前辈不一样的是，MuZero 不须要提早获知规则。
　　在围棋 AI 领域，国内研究机构和企业也在发力，其中最有表明性的要数上文中李世石提到的腾讯围棋 AI「绝艺」。「绝艺」诞生于 2016 年，实力或仅次于 AlphaGo。
　　「绝艺」的训练主要包括人类棋谱数据库和机器自对弈，它的算法基于策略网络与价值网络两大核心，并创新性地大幅提高了价值网络的精度，使其大局观表现更好。在 2018 腾讯世界人工智能围棋大赛中，「绝艺」在决赛中 7：0 大胜另外一款围棋 AI「星阵」夺冠，半决赛五番棋和决赛七番棋不失一局，赛后「星阵」研发团队亦称赞「绝艺」已经「达到了 AlphaGo 的水准」。
　　虽然在围棋的算力上，人类已经难以与机器相比，但棋手们能够经过与 AI 的对弈不断提高本身的水平，甚至发展出更为先进的战术。据古力此前透露，「绝艺」已经成为中国国家围棋队训练专用 AI。算法