Q-learning与Sarsa原理以及区别

Q-learning 上一状态是在S1;现在的状态S2 上一状态所采取的行动a2;现在将要采取的行动a2 Q-learning是通过本状态(S2)所对应Q表中的最大值maxQ(S2)来更新在上一状态(S1)时所采取的行动Q(s1,a2)的值 通俗一点的解释一下: 也就是当我到达S2之后,S2的下一步也是确定的,即maxQ(S2),然后利用maxQ(S2)更新Q(s1,a2) Sarsa Sasra
相关文章
相关标签/搜索