【深度】专业解读“深度强化学习“:从AlphaGo到AlphaGoZero

近日,DeepMind在Nature上公布了最新版AlphaGo论文,介绍了迄今为止最强的围棋AI:AlphaGoZero。AlphaGoZero不须要人类专家知识,只使用纯粹的深度强化学习技术和蒙特卡罗树搜索,通过3天自我对弈以100:0击败上一版本AlphaGo。AlphaGoZero证实了深度强化学习的强大能力,这一成果也势必将推进该领域的进一步发展。 算法 深度强化学习和AlphaGo网络
相关文章
相关标签/搜索