Mastering the game of Go with deep neural networks and tree search (AlphaGo)

围棋游戏因其巨大的搜索空间以及评估棋盘位置和动作的难度,一直被视为人工智能经典游戏中最具挑战性的游戏。本文使用value network评估棋盘位置,并使用policy network选择行为。这些深度神经网络是通过人类专家游戏中的有监督学习和self-play中的强化学习的新颖组合来训练的。同时,本文还提出一种新的MCTS搜索算法,该算法将蒙特卡洛模拟与价值和策略网络相结合。 文章目录 Intr
相关文章
相关标签/搜索