Batch-Constrained deep Q- Learning(BCQ)

论文全称:Off-Policy Deep Reinforcement Learning Without Exploration (Scott Fujimoto, David Meger, Doina Precup) 原文传送门 https://arxiv.org/pdf/1812.02900​arxiv.org   简介 本文其实不算是一篇Exploration的文章,但文章题目中的Without
相关文章
相关标签/搜索