Fast deep reinforcement learning using online adjustments from the past

Fast deep reinforcement learning using online adjustments from the past 文章出自 DeepMind,其提出了一种能够更加充分利用 Replay buffer 历史经验数据的RL改进算法 ---- Ephemeral Value Adjusments (EVA)。 Contribution: 提出了一种新的算法 — Epheme
相关文章
相关标签/搜索