论文｜ AlphaGo Zero 的模型和算法

时间 2021-01-11

原文原文链接

上一篇文章简单学习了 AlphaGo Zero 的特点： AlphaGo Zero 初探 http://www.jianshu.com/u/7b67af2e61b3 算法采用自对弈强化学习，不再需要学习人类棋谱数据。模型由原来的两个模型变成只使用一个神经网络。今天来学习一下细节。论文： Mastering the game of Go without human knowledge 先将围棋