通过减小Bootstrapping Error Reduction来进行离线RL学习

最近尝试了一些offline数据的off-policy算法,发现value function的overestimation问题非常严重,在正常学习估计收敛在400左右的价值函数在离线数据下竟然会一直累积到几十万,高的离谱。正好近期offline RL领域就有一篇工作讲这件事,所以值得仔细读一读。 论文全称: Stabilizing Off-Policy Q-Learning via Bootstr
相关文章
相关标签/搜索