Chapter 2 Multi-armed Bandits

时间 2021-01-16

原文原文链接

本文为看《reinforcement learning :an introduction》时的笔记总结标题解释为：多臂老虎机因为我最开始看的时候不知道这个名词的意思这一章基本上把后面要讲到的所有方法都简介了一遍，初步了解这些方法对理解后面的内容很有帮助 1. A k-armed Bandit 该问题指老虎机，有k个臂，对应k个不同的options或actions。在每次选择之后，你会收到一个