【强化学习】AlphaGo Zero详解

1 简介 AlphaGo Zero(如下简称Zero)的过程以下图a、b所示,在每一个状态s,经过MCTS搜索,得到每一个可能move的几率p,其中MCTS搜索采用self-play并执行fθ策略。fθ主要采用微软的ResNet,即基于残差的学习。利用MCTS得到每一个可能move的几率p以后,更新fθ权重。最后利用这个fθ评估最后能赢这盘棋的几率v。网络 2 MCTS 每一个节点s(状态),包含
相关文章
相关标签/搜索