强化学习(2)

基于序列决策过程基础上 马尔克夫决策过程 1.强化学习模型构建 具体优化什么变量? state 参数更新时和环境交互 环境给Agent一个观察,智能体给一个动作,环境给一个reward 再下一个观察… 数学化 environment将state s0传递给agent,然后action A0,reward R1 即S0 A0 R1 S1 A1…对这些序列 即Episode 学习 每一次的过程称为Ep
相关文章
相关标签/搜索