Mastering the game of Go with deep neural networks and tree search (AlphaGo)

时间 2020-12-24

原文原文链接

围棋游戏因其巨大的搜索空间以及评估棋盘位置和动作的难度，一直被视为人工智能经典游戏中最具挑战性的游戏。本文使用value network评估棋盘位置，并使用policy network选择行为。这些深度神经网络是通过人类专家游戏中的有监督学习和self-play中的强化学习的新颖组合来训练的。同时，本文还提出一种新的MCTS搜索算法，该算法将蒙特卡洛模拟与价值和策略网络相结合。文章目录 Intr

>>阅读原文<<