bandit算法(3)--UCB算法

引言 前面已经介绍了两种bandit算法— ϵ \epsilon ϵ-greedy算法和softmax算法。如今咱们来总结下这两种算法的共有属性:html 两种算法在每一轮选择时,默认都是选择到目前为止最好的臂;web 除此以外,算法会尝试去探索一些目前看起来不是最好的臂:       - ϵ \epsilon ϵ-greedy算法探索的时候彻底是随机的。       -softmax算法探索是基
相关文章
相关标签/搜索