生成对抗树搜索的样本高效的深度强化学习

时间 2021-01-07

标签 Generative Adversarial Network Reinforcement Learning GenerativeAdversarial Tree Sea 栏目系统网络繁體版

原文原文链接

摘要我们提出了一种样本高效的深度强化学习（DRL）算法——生成对抗树搜索（GATS）。在强化学习（RL）的搜索和规划中，尽管蒙特卡洛（MCTS）被认为是有效的，但其通常是样本低效的，从而应用到实践中成本高昂。在这项工作中，我们开发了一个用于对环境动力学建模的生成对抗网络（GAN）架构和奖励函数预测器模型。我们利用从与环境交互收集到的数据来学习这些模型，我们把这些模型用作基于模型的规划。在规划期

>>阅读原文<<