Q-learning和Sarsa的区别

因此对于SARSA来说 1.在状态s’时,就知道了要采取哪个a’,并真的采取了这个动作。 2.动作a的选取遵循e-greedy策略,目标Q值的计算也是根据(e-greedy)策略得到的动作a’计算得来,因此为on-policy学习。 (选择下个动作的存在探索的可能性) 而对于Q-learning来说 只会选择使得下个状态Q值最大的下个动作。 Q-learning 只会估计下个动作是什么(使得下个状
相关文章
相关标签/搜索