Sutton reinforcement learning _ Chapter 2 Multi-armed Bandits

打算看英文版Sutton的《强化学习》,从第二章开始记录下对每一章的理解,对每一块的内容大致介绍,留个纪念。 这一章围绕着多臂赌博机问题,介绍了基本的强化学习算法(value based),并探讨了利用(exploit)和探索(explore)问题。 2.1 A k-armed Bandit Problem 有k个赌博机,每次的操作就是拉下其中一个控制杆,随后你会得到一个奖励。通过多次的选择,你要
相关文章
相关标签/搜索