UCB公式的理解

UCB公式的理解 在解决探索与利用平衡问题时,UCB1 策略是一个颇有效的方法,而探索与利用平衡问题中最经典的一个问题就是多臂赌博机问题(Multi-Armed Bandit)。 html 图来自[1]web 问题假设:按下摇臂后的回报取值为 1 或 0,每一个摇臂得到回报的几率服从不一样的分布,但事先并不知道算法 问题目标:按照某种策略来按压摇臂以得到最大的累计回报(咦,这不就是强化学习的目标嘛
相关文章
相关标签/搜索