多臂老虎机问题

强化学习的基础概念 多臂老虎机是一个常见的强化学习问题,因此咱们首先给出强化学习的一些基础概念:算法 强化学习不只须要学习作什么,也须要学习如何根据与环境的交互采起相应的行动。强化学习的最终结果,就是要实现系统回报信号的最大化。学习者事先并不知道要去执行什么行为,须要本身去发现哪一种行动能产生最大的回报。ide 在强化学习中,有两个能够进行交互的对象:智能体和环境。函数 智能体(agent)能够感
相关文章
相关标签/搜索