多臂老虎机导论(一)引言

  本系列主要是上述这本Introduction to Multi-Armed Bandits的读书笔记。   多臂老虎机是一个简单但非常强大的算法框架,主要是在一段时间内不确定情况下做出决策。主要描述的是,一个算法有K个可能的动作可供选择,也就是臂,还有T轮。在每一轮中,算法选择一个臂,并为这个臂收集一个奖励。奖励是独立于某个固定的分布(即,只取决于所选的臂),但算法不知道这个分布。算法最核心的
相关文章
相关标签/搜索