[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

时间 2020-01-13

标签强化学习 policy learning sarsa 区别 lambda 繁體版

原文原文链接

看了莫凡大神(link)关于Q-learning和Sarsa的视频以后，大概了解了Q-learning和Sarsa，可是对其区别仍是有点懵懵懂懂，这篇博客即是后续对其理解的过程记录。html Q-learning和Sarsa都是时序差分模型，这部分后面将再次介绍。提到Q-learning和Sarsa的区别，避免不了提到“off-policy”和“online-policy”策略，下面我将首先介绍“

>>阅读原文<<