RL论文阅读12-mf-HER2017(更新)

文章目录 1. Tittle 2. 标签 3. 总结 针对的问题: 解决方法: 3. 原理 Background HER原理 4. 实验 1. Tittle source 2017 2. 标签 model-free 3. 总结 针对的问题: reward function的设计是很复杂的,不仅需要反映任务的本质 而且还有精心设计才能够使策略最优化。 稀疏奖励或者二进制奖励很难训练。 提高rewar
相关文章
相关标签/搜索