深度强化学task05

一、sparse reward 如果是复杂的问题很难会得到reward,所以要在中间的时间点给一些reward,以引导行为,但是中间加入的reward不一定就会对最终任务的完成有利,因此需要增加一个新的reward 这里面新的reward就是ICM,它的作用是给mechine加上“好奇心”。下面看怎么加ICM 这里面看两个state的差值,如果差值越大则奖励越大。这里面的network是单独训练的
相关文章
相关标签/搜索