论文《Masteing the game of Go without human knowledge》解读

时间 2021-07-14

原文原文链接

1、整体解读 AlphaGo Zero中使用的是强化学习方法，使用的深度神经网络记为 fθ f θ (其中 θ θ 是网络的参数)。网络的输入是棋盘状态 s s ( s s 中表示了当前玩家落子的信息，对手的落子信息，棋盘最后一步落子的信息，当前的棋盘转态谁是先手等信息，即棋盘的历史信息和当前信息)。网络的输出是 (p,v) ( p , v ) ,其中 p p 是当前玩家在局面 s s 状态下，即