强化学习(三) - 基于模型学习(DP)

上一节主要是引入了MDP(Markov decision process)的各种相关的定义与概念。最后得到了 最优状态值函数 v ∗ ( s ) v_∗(s) v∗​(s) 和 最优状态动作值函数 q ∗ ( s , a ) q_∗(s,a) q∗​(s,a) 的定义与公式。 若学习任务中的四个要素都已知,即S、A、P、R都已经给出,这样的情形称为 “有模型学习”。 这一节主要是在已知模型的情况下
相关文章
相关标签/搜索