详解AlphaGo到AlphaGo Zero!

作者 | 刘思乡,达观数据数据挖掘工程师,负责达观数据推荐系统的开发和部署,对推荐系统在相关行业中的应用有浓厚兴趣。 编辑 | Jane 摘要 1、围棋是一个 MDPs 问题 2、policy iteration 如何求解 MDPs 问题? 3、WHAT and WHY is Monte Carlo method? 4、AlphaGo Zero 的强化学习算法 1.前言 AlphaGo 是 Goo
相关文章
相关标签/搜索