强化学习系列(二):Multi-armed Bandits(多臂老虎机问题)

一、前言 强化学习系列(一):强化学习简介中我们介绍了强化学习的基本思想,和工作过程,我们提到了强化学习的一大矛盾:平衡Exploration and Exploitation。本章我们以Multi-armed Bandits(多臂老虎机问题)为例子,简单介绍一下针对该问题的Exploration and Exploitation平衡方法。 二、问题描述 想想一下你可以重复一个选择过程,每次有k个
相关文章
相关标签/搜索