sarsa和q-learning区别

sarsa是on policy q-learning是off policy  区别在于更新Q值的时候,直接使用了最大的Q(st+1,a),相当于采用了Q(st+1,a)值最大的动作,即与t时刻a动作所采用的policy无关
相关文章
相关标签/搜索