强化学习(RL)基本概念

强化学习不像监督学习那样有自己明确的目标,强化学习可以看成是一个记分的系统,记住及其获得低分和高分的行为,然后不断要求机器能取得高分的同时避免低分。你也可以把它当成分数导向的系统,跟监督学习的标签一样。 整个强化学习系统由智能体(Agent)、观察(Observation)、奖赏(Reward)、动作(Action)和环境(Environment)五部分组成,系统示意图如下图所示。 我们根据环境将
相关文章
相关标签/搜索