强化学习 —— (5)Sparse Reward

1. Reward 问题 通常情况下,agent每一步操作有一个reward对应,但是,当reward非常稀疏时怎么办,可能三四步甚至更多才能产生reward。 1.2. reward shaping 环境有一个固定的reward,为了引导agent,需要我们自己设计规则制定reward。在设计类游戏中,人为指定的规则为: 1.2.1 增加好奇模块 在Intrinsic Curiosity Mod
相关文章
相关标签/搜索