论文翻译:A Tutorial on Thompson Sampling

目录 摘要 1 简介 2 贪婪决策 3 Bernoulli Bandit的汤普森抽样 4 一般汤普森抽样 5 近似抽样 6 建模方面的考虑 7 进一步的例子 8 为何有效,合适失效,替代方法 摘要 本教程涵盖了算法及其应用,通过一系列的例子来说明概念,包括伯努利老虎机问题、最短路径问题、产品分类、推荐、使用神经网络的主动学习和马尔可夫决策过程中的强化学习。 目的:教程的目的是解释什么时候、为什么以
相关文章
相关标签/搜索