All In! 我学会了用强化学习打德州扑克

时间 2021-01-18

原文原文链接

最近，强化学习（RL）的成功（如 AlphaGo）取得了大众的高度关注，但其基本思路相当简单。下面我们在一对一无限注德州扑克游戏上进行强化学习。为了尽可能清楚地展示，我们将从零开始开发一个解决方案，而不需要预设的机器学习框架（如 Tensorflow）。让我们用 Python3 Jupyter notebook 开始吧！问题设置强化学习特征：的输入（下文使用 Q^表示 Q hat）