强化学习： On-Policy与 Off-Policy 以及 Q-Learning 与 SARSA

时间 2021-01-02

原文原文链接

刚接触强化学习，都避不开On Policy 与Off Policy 这两个概念。其中典型的代表分别是Q-learning 和 SARSA 两种方法。这两个典型算法之间的区别，一斤他们之间具体应用的场景是很多初学者一直比较迷的部分，在这个博客中，我会专门针对这几个问题进行讨论。以上是两种算法直观上的定义。我们都称 Q-Learning 是 Off Policy . SARSA 是 On Poli