强化学习: On-Policy与 Off-Policy 以及 Q-Learning 与 SARSA

刚接触强化学习,都避不开On Policy 与Off Policy 这两个概念。其中典型的代表分别是Q-learning 和 SARSA 两种方法。这两个典型算法之间的区别,一斤他们之间具体应用的场景是很多初学者一直比较迷的部分,在这个博客中,我会专门针对这几个问题进行讨论。 以上是两种算法直观上的定义。 我们都称 Q-Learning 是 Off Policy . SARSA 是 On Poli
相关文章
相关标签/搜索