强化学习(五)：Sarsa算法与Q-Learning算法

时间 2020-05-23

标签强化学习 sarsa 算法 learning 繁體版

原文原文链接

上一节主要讲了Monte-Carlo learning，TD learning， TD(λ) 。这三个方法都是为了在给定策略下来估计价值函数V(s)。只不过Monte-Carlo learning须要获得一个完整的episode才能进行一次v值更新，而TD learning则不用，它能够每走一步就更新一次v值。可是咱们的目标是想获得最优策略，因此咱们这一讲就是为了经过价值函数，反过来改进策略。二

>>阅读原文<<