Lee Hung-yi强化学习 | (7) Sparse Reward

时间 2021-01-10

标签 Lee Hung-yi强化学习繁體版

原文原文链接

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv，原专栏地址课程视频课件地址在强化学习的训练过程中，当环境的reward很少时（指出现的次数），这样对agent的训练是很不利的。比如，让一个机器人拿起螺丝刀，再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的，因为它一开始不管做什么动作都不会得到reward

>>阅读原文<<