强化学习5

Sparse Reward and Imitation Learning 1 关键词 reward shaping: 在我们的agent与environment进行交互时,我们人为的设计一些reward,从而“指挥”agent,告诉其采取哪一个action是最优的,而这个reward并不是environment对应的reward,这样可以提高我们estimate Q-function时的准确性。
相关文章
相关标签/搜索