论文 | AlphaGo Zero 的模型和算法

上一篇文章简单学习了 AlphaGo Zero 的特点: AlphaGo Zero 初探 http://www.jianshu.com/u/7b67af2e61b3 算法采用自对弈强化学习,不再需要学习人类棋谱数据。 模型由原来的两个模型变成只使用一个神经网络。 今天来学习一下细节。 论文: Mastering the game of Go without human knowledge 先将围棋
相关文章
相关标签/搜索