[ 强化学习 ] —— 基础知识

  1、强化学习如何运行? 强化学习主要由状态(S)、行动(A)、环境(Env)、奖励(Rewards)以及智能体(Agent)构成。         智能体能够根据当前(t-1时刻)的状态(S)输出下一步动作(A),这一过程可以用一个决策函数A=Func(S)来表示。输出下一步动作(A)后,智能体随即进入下一时刻(t时刻)的状态(S’)。同时,由于不知道这一决策的好坏,环境(Env)需要将这一时
相关文章
相关标签/搜索