bandit算法(3)--UCB算法

引言 前面已经介绍了两种bandit算法— ϵ -greedy算法和softmax算法。现在我们来总结下这两种算法的共有属性: 两种算法在每一轮选择时,默认都是选择到目前为止最好的臂; 除此之外,算法会尝试去探索一些目前看起来不是最好的臂:       - ϵ -greedy算法探索的时候完全是随机的。       -softmax算法探索是基于到当前时刻臂的收益概率。收益概率越高,选择的概率越高
相关文章
相关标签/搜索