Sparse Reward

时间 2021-07-12

原文原文链接

经常是错误的动作，没有reward，只能随机动作，很慢引导的reward 需要领域知识，与实际任务相关好奇心reward——期待状态变化——重要的状态 network2是要从两个状态之间的到action，说明是重要的 train data要有顺序，从易到难——ML的通用技巧阶层学习——大目标到小而具体的目标黄色的是上层agent的目标，紫色的是上层agent给下层age