达观数据刘思乡:一文详解AlphaGo原理

摘要 1、围棋是一个MDPs问题 2、policy iteration如何求解MDPs问题? 3、WHAT and WHY is MonteCarlo method? 4、AlphaGo Zero的强化学习算法 前言 AlphaGo是GoogleDeepMind团队开发的一个基于深度神经网络的围棋人工智能程序,其一共经历了以下几次迭代[1]: 马尔可夫决策过程 一个马尔可夫决策过程(Markov
相关文章
相关标签/搜索