【李宏毅-强化学习笔记】p7、Sparse reward

时间 2021-01-02

标签强化学习繁體版

原文原文链接

首先sparse reward是什么意思呢？有很多情况下，我们做很多事是没有reward的，例如考研，我们每天看书、做习题然后不断的重复都没有奖励值，但是一旦考上了，就会有丰厚的奖励，这样总体来看，我们获得的奖励类似于：　　　　　　　　　　　　　　　　　0,0,0，…0,0,100 这就称为稀疏奖励。一、reward shaping（塑造）想法就是：认为的设置一些reward来引导agent

>>阅读原文<<