AI学习笔记之——多臂老虎机(Multi-armed bandit)问题

时间 2021-01-13

原文原文链接

上一篇文章简要介绍了一下强化学习，强化学习是一个非常庞大的体系，与监督学习和非监督学习相比，其广度和深度都大的多，涉及到很多经典的决策算法，对统计学知识有很高的依赖。作为强化学习的基础，这篇文章研究一下这个领域的一个经典决策问题——多臂老虎机问题。 1.探索-利用困境(Explore-Exploit dilemma) 多臂老虎机是一个有多个拉杆的赌博机，每一个拉杆的中奖几率是不一样的，问题是：如何

>>阅读原文<<