详解AlphaGo到AlphaGo Zero！

时间 2021-07-14

原文原文链接

作者 | 刘思乡，达观数据数据挖掘工程师，负责达观数据推荐系统的开发和部署，对推荐系统在相关行业中的应用有浓厚兴趣。编辑 | Jane 摘要 1、围棋是一个 MDPs 问题 2、policy iteration 如何求解 MDPs 问题？ 3、WHAT and WHY is Monte Carlo method？ 4、AlphaGo Zero 的强化学习算法 1.前言 AlphaGo 是 Goo