Q-learning与Sarsa原理以及区别

时间 2021-01-16

原文原文链接

Q-learning 上一状态是在S1；现在的状态S2 上一状态所采取的行动a2;现在将要采取的行动a2 Q-learning是通过本状态（S2）所对应Q表中的最大值maxQ(S2)来更新在上一状态（S1）时所采取的行动Q(s1,a2)的值通俗一点的解释一下：也就是当我到达S2之后，S2的下一步也是确定的，即maxQ(S2)，然后利用maxQ(S2)更新Q(s1,a2) Sarsa Sasra