强化学习(五)：Sarsa算法与Q-Learning算法

时间 2021-01-08

原文原文链接

上一节主要讲了Monte-Carlo learning，TD learning， TD(λ) 。这三个方法都是为了在给定策略下来估计价值函数V(s)。只不过Monte-Carlo learning需要得到一个完整的episode才能进行一次v值更新，而TD learning则不用，它可以每走一步就更新一次v值。但是我们的目标是想得到最优策略，所以我们这一讲就是为了通过价值函数，反过来改进策略。两