Reinforcement Learning An Introduction~The 10-armed Testbed

时间 2021-01-02

标签强化学习繁體版

原文原文链接

2.3 10臂测试台为了粗略的评估贪婪算法和ε-greedy 方法的相对有效性，我们通过一系列测试问题进行数值上的比较。这是一个2000次的随机产生的10个臂的赌博问题。对于每个赌博机问题，就像图2.1所示：

>>阅读原文<<

最新文章

欢迎关注本站公众号,获取更多信息