生成对抗树搜索的样本高效的深度强化学习

摘要  我们提出了一种样本高效的深度强化学习(DRL)算法——生成对抗树搜索(GATS)。在强化学习(RL)的搜索和规划中,尽管蒙特卡洛(MCTS)被认为是有效的,但其通常是样本低效的,从而应用到实践中成本高昂。在这项工作中,我们开发了一个用于对环境动力学建模的生成对抗网络(GAN)架构和奖励函数预测器模型。我们利用从与环境交互收集到的数据来学习这些模型,我们把这些模型用作基于模型的规划。在规划期
相关文章
相关标签/搜索