如何理解RL中on-policy与off-policy

   on-policy 和off-policy是强化学习中出现最多的两个概念,也是最容易让初学者迷惑的概念之一。网上很多博客都是从是否使用当前policy和其它policy角度出发解释的,但是笔者认为这样解释诚然正确但是总给人感觉看过之后还是茫茫然。今天我们就从另外的角度探讨一下他们两者的区别与联系。     On-policy methods attempt to evaluate or im
相关文章
相关标签/搜索