Sutton reinforcement learning _ Chapter 2 Multi-armed Bandits

时间 2021-01-16

原文原文链接

打算看英文版Sutton的《强化学习》，从第二章开始记录下对每一章的理解，对每一块的内容大致介绍，留个纪念。这一章围绕着多臂赌博机问题，介绍了基本的强化学习算法（value based），并探讨了利用（exploit）和探索（explore）问题。 2.1 A k-armed Bandit Problem 有k个赌博机，每次的操作就是拉下其中一个控制杆，随后你会得到一个奖励。通过多次的选择，你要