Sparse Reward

时间 2021-07-12

原文原文链接

文章目录 1、Reward Shaping Curiosity ICM的设计 2、Curriculum Learning 3、Hierarchical RL 在强化学习的训练过程中，当环境的reward很少时（指出现的次数），这样对agent的训练是很不利的。比如，让一个机器人拿起螺丝刀，再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的，因为它一