【强化学习】AlphaGo Zero详解

时间 2019-12-09

标签强化学习 alphago zero 详解繁體版

原文原文链接

1 简介 AlphaGo Zero（如下简称Zero）的过程以下图a、b所示，在每一个状态s，经过MCTS搜索，得到每一个可能move的几率p，其中MCTS搜索采用self-play并执行fθ策略。fθ主要采用微软的ResNet，即基于残差的学习。利用MCTS得到每一个可能move的几率p以后，更新fθ权重。最后利用这个fθ评估最后能赢这盘棋的几率v。网络 2 MCTS 每一个节点s（状态），包含

>>阅读原文<<