强化学习(三):动态规划求解MDP(Planning by Dynamic Programming)

上一节主要是引入了MDP(Markov decision process)的各种相关的定义与概念。最后得到了最优状态值函数 v∗(s) 和最优状态动作值函数 q∗(s,a) 的定义与公式。这一节主要是在已知模型的情况下利用动态规划来进行强化学习求解 v∗(s) 和 q∗(s,a) 。什么叫已知模型的情况?就是说上一节讲到的 <S,A,P,R,γ> ,这些都是已知的。求解的方法主要有两个,一个是策略
相关文章
相关标签/搜索