AI学习笔记之——多臂老虎机(Multi-armed bandit)问题

上一篇文章简要介绍了一下强化学习,强化学习是一个非常庞大的体系,与监督学习和非监督学习相比,其广度和深度都大的多,涉及到很多经典的决策算法,对统计学知识有很高的依赖。作为强化学习的基础,这篇文章研究一下这个领域的一个经典决策问题——多臂老虎机问题。 1.探索-利用困境(Explore-Exploit dilemma) 多臂老虎机是一个有多个拉杆的赌博机,每一个拉杆的中奖几率是不一样的,问题是:如何
相关文章
相关标签/搜索