Chapter 2 Multi-armed Bandits

本文为看《reinforcement learning :an introduction》时的笔记总结 标题解释为:多臂老虎机 因为我最开始看的时候不知道这个名词的意思 这一章基本上把后面要讲到的所有方法都简介了一遍,初步了解这些方法对理解后面的内容很有帮助 1. A k-armed Bandit 该问题指老虎机,有k个臂,对应k个不同的options或actions。在每次选择之后,你会收到一个
相关文章
相关标签/搜索