[ 强化学习 ] —— 基础知识

  一、强化学习如何运行?html 强化学习主要由状态(S)、行动(A)、环境(Env)、奖励(Rewards)以及智能体(Agent)构成。git         智能体可以根据当前(t-1时刻)的状态(S)输出下一步动做(A),这一过程能够用一个决策函数A=Func(S)来表示。输出下一步动做(A)后,智能体随即进入下一时刻(t时刻)的状态(S’)。同时,因为不知道这一决策的好坏,环境(Env
相关文章
相关标签/搜索