强化学习(五):Sarsa算法与Q-Learning算法

上一节主要讲了Monte-Carlo learning,TD learning, TD(λ) 。这三个方法都是为了在给定策略下来估计价值函数V(s)。只不过Monte-Carlo learning须要获得一个完整的episode才能进行一次v值更新,而TD learning则不用,它能够每走一步就更新一次v值。 可是咱们的目标是想获得最优策略,因此咱们这一讲就是为了经过价值函数,反过来改进策略。二
相关文章
相关标签/搜索