深度加强学习David Silver(九)——Exploration and Exploitation

本课主要内容:web multi-armed bandits contextual bandits MDPs multi-armed bandit是多臂赌博机,有元组 ⟨A,R⟩ ,目标是最大化奖励。 行动价值函数是一个行动所得到的平均奖励: Q(a)=E[r|a] 最优价值为 V∗=Q(a∗)=maxa∈AQ(a) regret指每一步的损失: lt=E[V∗−Q(at)] total regr
相关文章
相关标签/搜索