强化学习系列（二）：Multi-armed Bandits(多臂老虎机问题）

时间 2021-01-13

原文原文链接

一、前言强化学习系列（一）：强化学习简介中我们介绍了强化学习的基本思想，和工作过程，我们提到了强化学习的一大矛盾：平衡Exploration and Exploitation。本章我们以Multi-armed Bandits(多臂老虎机问题）为例子，简单介绍一下针对该问题的Exploration and Exploitation平衡方法。二、问题描述想想一下你可以重复一个选择过程，每次有k个