手把手教你搭建AlphaZero（使用Python和Keras）

时间 2019-12-01

标签手把手搭建 alphazero 使用 python keras 栏目 Python 繁體版

原文原文链接

安妮允中编译整理本文经AI新媒体量子位（公众号ID:qbitai ）受权转载，转载请联系出处。

AlphaZero，DeepMind阵营的最强棋士。python

关于AlphaZero的理论分析已经很多，最近Applied Data Science的联合创始人David Foster，写出了一份详细的教程，教你如何搭建一套属于本身的AlphaZero系统。并且还附上了代码。git

原文地址：https://medium.com/applied-data-science/how-to-build-your-own-alphazero-ai-using-python-and-keras-7f664945c188github

如何构建本身的AlphaZero算法

首先，咱们须要学习和理解AlphaGo Zero的原理。我以前写过一篇AlphaGo Zero的知识点速查手册可供参考，Tim Wheeler的博客中一篇文章给也讲的很详细，一并推荐给你。后端

知识点速查手册：网络

https://medium.com/applied-data-science/alphago-zero-explained-in-one-diagram-365f5abf67e0app

Tim Wheeler博客：函数

http://tim.hibal.org/blog/alpha-zero-how-and-why-it-works/学习

代码

我将基于下面这个代码库进行讲解：ui

https://github.com/AppliedDataSciencePartners/DeepReinforcementLearning

咱们应该从哪里开始构建本身的AlphaZero呢？

别急，能够从运行Jupyter notebook中run.ipynb的前两个panel开始。一旦它对游戏有了足够的定位，那么神经网络将开始训练。经过额外的自我对弈和训练，它将逐渐在预测游戏中的各个行为的价值和下一步行动上作得愈来愈好，从而作出更好的决策和更聪明的游戏。

如今，咱们须要更详细地看看面前的代码，而且展现下AI是怎样随时间愈来愈厉害的。

Connect4

咱们的算法将要学习如何玩Connect4（四子连珠）这个游戏。虽然不如围棋那样复杂，但也有4531985219092种游戏位置。

游戏规则很简单。玩家轮流在任何一栏的顶部布置本身的颜色。谁最早在垂直、水平或对角线上都放置了同一种颜色就获胜了，若是这种状况没有出现，那游戏就是平局。

下面是组成代码库的关键文件：

game.py

这个文件包含Connect4的游戏规则。

每一个正方形都被分配了一个从0到41的数字，以下图所示：

game.py文件给除了从一种游戏状态到另外一种状态的逻辑，而且给出了一个选择的动做。好比，考虑到empty board和38号动做，takeAction方法返回到一个新的游戏状态，也就是底部一行的中心位置。

你能够将game.py文件用任何符合相同API和算法的游戏文件替换掉，根据你给它的规则，经过自我对弈的方法学习。

run.ipynb

这个文件包含开启学习过程的代码。它经过算法中的主要环节加载游戏规则，而且由三个阶段组成：

1.自我对弈

2.从新训练神经网络

3.评估神经网络

有两个智能体也参与到这个环节中，他们分别为best_player和current_player。

best_player包含执行最佳的神经网络，而且能够用于生成自我对弈的记忆。而后，current_player在这些记忆上从新训练它的神经网络，而后再与best_player对弈。若是它赢了，best_player内部的神经网络被转换为current_player内部的神经网络，而后循环再次启动。

agent.py

这个文件包含游戏中的一个玩家Agent class。在游戏中，每一个玩家都是用本身的神经网络和蒙特卡罗搜索树进行初始化的。

咱们须要用simulate method运行蒙特卡罗树搜索过程。具体老说，智能体移动到树的叶节点，用它的神经网络对节点进行评估，而后经过树将节点的值返回。

以后，咱们还须要用act method屡次重复模拟，让智能体理解从当前位置移动最有利。而后它将最终选择的动做返回到游戏中，以执行动做。

最后，replay method利用之前游戏的记忆，从新训练神经网络。

model.py

这个文件包括Residual_CNN类，这定义了如何构建一个神经网络的实例。