2020-10-12讨论报告

1. 关于Alpha zero AlphaZero是谷歌下属公司Deepmind的新版程序。从空白状态学起,在无任何人类输入的条件下,AlphaZero能够迅速自学围棋,并以100:0的战绩击败“前辈”。 AlphaZero的工作方式:使用MCTS预测搜索,并通过神经网络智能引导。 下面将对AlphaZero使用的这两个模型进行描述。 2. MCTS蒙特卡洛搜索树 2.1 总体介绍 蒙特卡洛树搜索
相关文章
相关标签/搜索