强化学习-------马尔科夫决策过程

重点:就是要得出策略,因此需要知道V*,因此需要知道V。然后有两种迭代方式求解,一是值迭代,而是策略迭代。 对于Q函数,V函数的理解,可以通过那两个树状图理解比较容易;另外选择动作a后,到达s‘是有一定的概率的,不是选了a,s’就确定了,而是以一定的概率。   为什么要讲马尔科夫决策过程?因为几乎所有的强化学习问题都可以表述成马尔科夫决策过程(MDP)的形式,比如说:最优控制主要是处理连续MDP问
相关文章
相关标签/搜索