强化学习指南:用Python解决Multi-Armed Bandit问题

Introduction 你在镇上有一个最喜欢的咖啡馆吗? 当你想喝咖啡时,你可能会去这个地方,因为你几乎可以肯定你会得到最好的咖啡。 但这意味着你错过了这个地方的跨城镇竞争对手所提供的咖啡。 如果你一个接一个地尝试所有咖啡的地方,品尝你生活中更糟糕的咖啡的可能性会非常高! 但话说回来,你有可能找到一个更好的咖啡酿造者。 但是所有这些与强化学习有什么关系呢? 我很高兴你问。 我们的咖啡品尝实验中的
相关文章
相关标签/搜索