李宏毅强化学习笔记【4.Sparse Reward】

没有reward,训练很难。 因为一开始机器什么都不知道,就靠随机。如果随机一个概率特别小的才有reward,reward非常稀疏,就非常难学习,因为做什么动作都一样糟糕。   1.reward shaping 环境有一个固定的reward。我们还可以设计一些reward,这些不是真正的reward,但是可以引导机器去做一些你想要他做的事情。   增加好奇心: 鼓励冒险,真实的s与network1
相关文章
相关标签/搜索