强化学习基础 | (19) AlphaGo Zero强化学习原理

原文地址 在基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。 本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zero Cheat Sheet。 1. AlphaGo Zero模型基础 AlphaGo Zero不需
相关文章
相关标签/搜索