强化学习&动态规划3 | 策略迭代 Policy Iteration

将迭代策略评估和策略优化结合起来,就得到了策略迭代算法 算法的伪代码如下,从对等概率随机策略开始,对于每个状态选择动作的概率是一样的。然后进行迭代策略评估获得相应的值函数和策略完善获得更好或者对等的的策略,直至收敛。 当然在策略评估这一过程中,我们可以不用θ作为我们的终止条件,而是设定迭代次数,这个算法称为截断策略迭代 因为我们其实不用获得极其接近结果的值函数才获得最优策略,如果状态动作对之间的相
相关文章
相关标签/搜索