Mastering the game of Go with deep neural networks and tree search 概括

  文章投稿于2016年的《Nature》,它是多种计算方法的集合。“价值网络”评估棋局、“策略网络”选择落子,深层神经网络,由人类专家博弈训练的监督学习和电脑自我博弈训练的强化学习,共同构成的一种新型组合。在没有任何预先搜索的情境下,这些神经网络能与顶尖水平的、模拟了千万次随机自我博弈的蒙特卡洛树搜索程序下围棋。这篇文章提出了一个新的搜索算法,结合了估值和策略网络的蒙特卡洛模拟算法。   本文引
相关文章
相关标签/搜索