李宏毅强化学习笔记【4.Sparse Reward】

时间 2021-01-14

标签强化学习繁體版

原文原文链接

没有reward，训练很难。因为一开始机器什么都不知道，就靠随机。如果随机一个概率特别小的才有reward，reward非常稀疏，就非常难学习，因为做什么动作都一样糟糕。 1.reward shaping 环境有一个固定的reward。我们还可以设计一些reward，这些不是真正的reward，但是可以引导机器去做一些你想要他做的事情。增加好奇心：鼓励冒险，真实的s与network1

>>阅读原文<<