论文翻译：A Tutorial on Thompson Sampling

时间 2020-12-25

原文原文链接

目录摘要 1 简介 2 贪婪决策 3 Bernoulli Bandit的汤普森抽样 4 一般汤普森抽样 5 近似抽样 6 建模方面的考虑 7 进一步的例子 8 为何有效，合适失效，替代方法摘要本教程涵盖了算法及其应用，通过一系列的例子来说明概念，包括伯努利老虎机问题、最短路径问题、产品分类、推荐、使用神经网络的主动学习和马尔可夫决策过程中的强化学习。目的：教程的目的是解释什么时候、为什么以