强化学习(三)：动态规划求解MDP(Planning by Dynamic Programming)

时间 2021-01-08

标签强化学习Reinforcement Learning 价值迭代value iteration 策略迭代policy iteration 策略评估policy evaluation 繁體版

原文原文链接

上一节主要是引入了MDP(Markov decision process)的各种相关的定义与概念。最后得到了最优状态值函数 v∗(s) 和最优状态动作值函数 q∗(s,a) 的定义与公式。这一节主要是在已知模型的情况下利用动态规划来进行强化学习求解 v∗(s) 和 q∗(s,a) 。什么叫已知模型的情况？就是说上一节讲到的 <S,A,P,R,γ> ，这些都是已知的。求解的方法主要有两个，一个是策略

>>阅读原文<<