深度强化学task05

时间 2021-06-07

原文原文链接

一、sparse reward 如果是复杂的问题很难会得到reward，所以要在中间的时间点给一些reward，以引导行为，但是中间加入的reward不一定就会对最终任务的完成有利，因此需要增加一个新的reward 这里面新的reward就是ICM，它的作用是给mechine加上“好奇心”。下面看怎么加ICM 这里面看两个state的差值，如果差值越大则奖励越大。这里面的network是单独训练的