深度剖析 AlphaGo 的训练策略

  AlphaGo的训练中,主要涉及三个核心网络、四个重要部分 三个核心网络: 1、有监督的CNN:学习大量高手棋谱,实现‘快速成长’ 2、估值网络VL:实战中,value-learn会对系统的下一步落子的策略,做评估 3、强化学习网络 RL:计算机不断‘自我对弈’,并在整盘棋下完后,对胜败结果做反馈,从而对整盘棋落子的合理性打分,协助系统落子。 四个重要部分: 1、走棋网络:给定抢钱局面,采样当
相关文章
相关标签/搜索