强化学习(五):Sarsa算法与Q-Learning算法

上一节主要讲了Monte-Carlo learning,TD learning, TD(λ) 。这三个方法都是为了在给定策略下来估计价值函数V(s)。只不过Monte-Carlo learning需要得到一个完整的episode才能进行一次v值更新,而TD learning则不用,它可以每走一步就更新一次v值。 但是我们的目标是想得到最优策略,所以我们这一讲就是为了通过价值函数,反过来改进策略。两
相关文章
相关标签/搜索