AlphaGo Zero 模型框架

Intro 上一篇blog提到了Mento Carlo树搜索的一些基本概念和要点,在结尾也说道AlphaGo 和AlphaGo Zero在MCTS下使用了神经网络作为模拟策略. 本文主要说一说AlphaGo Zero如何将MCTS 组合起来的. 为了方便描述,需要强调的是,在MCTS树里面,每一个节点表示的是一个局面,即棋盘上所有已有的棋子的位置. 注意到下围棋是一个Markov 决策过程,当前的
相关文章
相关标签/搜索