AlphaGo Zero是如何工作的？——AlphaGo Zero背后的强化学习算法原理

时间 2021-01-09

原文原文链接

Deepmind公司的AlphaGo算法是第一个打败人类选手的围棋程序。2016年三月，打败李世石的是AlphaGo Lee，一个靠大量人类围棋专家的棋谱进行监督学习和自对弈强化学习进行训练的AI程序。不久之后，deepmind的新论文展示了不同于之前AlphaGo的全新网络结构——它仅仅用了三天的自对弈强化学习而无需人类的下棋经验就以100-0的战绩打败了AlphaGo。它就是大名鼎鼎的Al

>>阅读原文<<