强化学习-------马尔科夫决策过程

时间 2020-12-29

原文原文链接

重点：就是要得出策略，因此需要知道V*，因此需要知道V。然后有两种迭代方式求解，一是值迭代，而是策略迭代。对于Q函数，V函数的理解，可以通过那两个树状图理解比较容易；另外选择动作a后，到达s‘是有一定的概率的，不是选了a，s’就确定了，而是以一定的概率。为什么要讲马尔科夫决策过程？因为几乎所有的强化学习问题都可以表述成马尔科夫决策过程（MDP）的形式，比如说：最优控制主要是处理连续MDP问

>>阅读原文<<