论文《Masteing the game of Go without human knowledge》解读

1、整体解读 AlphaGo Zero中使用的是强化学习方法,使用的深度神经网络记为 fθ f θ (其中 θ θ 是网络的参数)。网络的输入是棋盘状态 s s ( s s 中表示了当前玩家落子的信息,对手的落子信息,棋盘最后一步落子的信息,当前的棋盘转态谁是先手等信息,即棋盘的历史信息和当前信息)。网络的输出是 (p,v) ( p , v ) ,其中 p p 是当前玩家在局面 s s 状态下,即
相关文章
相关标签/搜索