强化学习-智能体与环境交互过程2

强化学习的过程是agent与环境不断交互的过程,从环境得到反馈,然后来改变自己的行动。 智能体首先接受环境的状态S0 智能体在S0的环境下采取行动A0 环境收到智能体的行动后从S0 变化到S1 环境对智能体的行为做出回报reward(可正可负,表示奖励或惩罚),R1 智能体收到奖励后对环境采取行动A1 环境状态接收到动作A1后由状态S1变化到S2,并且给予奖励R2 智能体与环境交互的过程为 S0
相关文章
相关标签/搜索