多臂老虎机问题

强化学习的基础概念 多臂老虎机是一个常见的强化学习问题,所以我们首先给出强化学习的一些基础概念: 强化学习不仅需要学习做什么,也需要学习如何根据与环境的交互采取相应的行动。强化学习的最终结果,就是要实现系统回报信号的最大化。学习者事先并不知道要去执行什么行为,需要自己去发现哪种行动能产生最大的回报。 在强化学习中,有两个可以进行交互的对象:智能体和环境。 智能体(agent)可以感知外界环境的状态
相关文章
相关标签/搜索