AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天

本文来自AI新媒体量子位(QbitAI) 昨天,DeepMind团队又在arXiv上扔了个重磅炸弹,新一代AlphaZero在用了强劲的计算资源(5000个一代TPU和64个二代TPU)之后,用不到24小时的时间自我对弈(tabula rasa,也叫白板)强化学习,接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋)。 △ AlphaZero和国际象棋冠军程序对弈 其中包括上一代冠军围棋程序A
相关文章
相关标签/搜索