选择问题

选择强迫症 在没有先验信息或者有部分先验信息的情况下,如何持续的作出更好的选择。 (第一次写,抄一个有用的练练手) bandit算法 Thompson sampling算法 UCB算法 *Epsilon-Greedy算法 均值最大 背景 bandit算法来源于人民群众喜闻乐见的赌博学,它要解决的问题是这样的: 一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率
相关文章
相关标签/搜索