深度剖析 AlphaGo 的训练策略

时间 2021-01-12

原文原文链接

AlphaGo的训练中，主要涉及三个核心网络、四个重要部分三个核心网络： 1、有监督的CNN：学习大量高手棋谱，实现‘快速成长’ 2、估值网络VL：实战中，value-learn会对系统的下一步落子的策略，做评估 3、强化学习网络 RL：计算机不断‘自我对弈’，并在整盘棋下完后，对胜败结果做反馈，从而对整盘棋落子的合理性打分，协助系统落子。四个重要部分： 1、走棋网络：给定抢钱局面，采样当