强化学习打卡之稀疏奖励和模仿学习

强化学习打卡之稀疏奖励和模仿学习 1.稀疏奖励 稀疏奖励就是说状态空间很大的情况下采取特定的少数几个动作才能获得奖励,就会导致agent经过大量学习和尝试都没拿到奖励。(这里我想到用epsilon-greedy去探索不就行了吗),这里李宏毅老师的举例十分的妙,我们人每天或者做的事情都没有奖励,但还是一直学习。针对这个情况的办法Reward Shaping(就是认为设计奖励去引导agent)、Cur
相关文章
相关标签/搜索