强化学习系列(二):Multi-armed Bandits(多臂老虎机问题)

1、前言 强化学习系列(一):强化学习简介中咱们介绍了强化学习的基本思想,和工做过程,咱们提到了强化学习的一大矛盾:平衡Exploration and Exploitation。本章咱们以Multi-armed Bandits(多臂老虎机问题)为例子,简单介绍一下针对该问题的Exploration and Exploitation平衡方法。web 2、问题描述 想一想一下你能够重复一个选择过程,每
相关文章
相关标签/搜索