All In! 我学会了用强化学习打德州扑克

最近,强化学习(RL)的成功(如 AlphaGo)取得了大众的高度关注,但其基本思路相当简单。下面我们在一对一无限注德州扑克游戏上进行强化学习。为了尽可能清楚地展示,我们将从零开始开发一个解决方案,而不需要预设的机器学习框架(如 Tensorflow)。让我们用 Python3 Jupyter notebook 开始吧! 问题设置 强化学习     特征:的输入(下文使用 Q^表示 Q hat)
相关文章
相关标签/搜索