A thorough understanding of on-policy and off-policy in Reinforcement learning

一句话区分on-policy and off-policy: 看behaviour policy和current policy是不是同一个就OK了! 我这篇文章主要想借着理解on-policy和off-policy的过程来加深对其他RL算法的认识。因为万事万物总是相互联系的,所以在自己探究,琢磨为什么有些算法是on-policy或者off-policy的过程中,对于它们的本质也有了更深的认识。 首
相关文章
相关标签/搜索