强化学习(2)

时间 2021-01-11

原文原文链接

基于序列决策过程基础上马尔克夫决策过程 1.强化学习模型构建具体优化什么变量？ state 参数更新时和环境交互环境给Agent一个观察，智能体给一个动作，环境给一个reward 再下一个观察… 数学化 environment将state s0传递给agent，然后action A0，reward R1 即S0 A0 R1 S1 A1…对这些序列即Episode 学习每一次的过程称为Ep