【李宏毅-强化学习笔记】p7、Sparse reward

首先sparse reward是什么意思呢?有很多情况下,我们做很多事是没有reward的,例如考研,我们每天看书、做习题然后不断的重复都没有奖励值,但是一旦考上了,就会有丰厚的奖励,这样总体来看,我们获得的奖励类似于:                  0,0,0,…0,0,100 这就称为稀疏奖励。 一、reward shaping(塑造) 想法就是:认为的设置一些reward来引导agent
相关文章
相关标签/搜索