时间差分方法Q-learning和sarsa的区别

原文链接:https://blog.csdn.net/qq_27514521/article/details/81146632 Q-learning和sarsa都是利用时间差分目标来更新当前行为值函数的。唯一不同的是在Q-learning中,行动策略(产生数据的策略)和要评估的策略不是一个策略,因此称之为异策略(off-policy),而在sarsa中,正好相反,也就是行动策略(产生数据的策略)和
相关文章
相关标签/搜索