达观数据刘思乡：一文详解AlphaGo原理

时间 2021-01-13

原文原文链接

摘要 1、围棋是一个MDPs问题 2、policy iteration如何求解MDPs问题？ 3、WHAT and WHY is MonteCarlo method？ 4、AlphaGo Zero的强化学习算法前言 AlphaGo是GoogleDeepMind团队开发的一个基于深度神经网络的围棋人工智能程序，其一共经历了以下几次迭代[1]：马尔可夫决策过程一个马尔可夫决策过程（Markov