[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

看了莫凡大神(link)关于Q-learning和Sarsa的视频以后,大概了解了Q-learning和Sarsa,可是对其区别仍是有点懵懵懂懂,这篇博客即是后续对其理解的过程记录。html Q-learning和Sarsa都是时序差分模型,这部分后面将再次介绍。提到Q-learning和Sarsa的区别,避免不了提到“off-policy”和“online-policy”策略,下面我将首先介绍“
相关文章
相关标签/搜索