Reinforcement Learning An Introduction~The 10-armed Testbed

2.3 10臂测试台        为了粗略的评估贪婪算法和ε-greedy 方法的相对有效性,我们通过一系列测试问题进行数值上的比较。这是一个2000次的随机产生的10个臂的赌博问题。对于每个赌博机问题,就像图2.1所示:                                                                                        
相关文章
相关标签/搜索