选择问题

选择强迫症 在没有先验信息或者有部分先验信息的状况下,如何持续的做出更好的选择。 (第一次写,抄一个有用的练练手)web bandit算法 Thompson sampling算法 UCB算法 *Epsilon-Greedy算法 均值最大 背景 bandit算法来源于人民群众喜闻乐见的赌博学,它要解决的问题是这样的: 一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表如出一辙,可是每一个老虎机吐
相关文章
相关标签/搜索