2020李宏毅学习笔记——71 RL Advanced Version7.Sparse Reward

Reward Shaping 当reward的分布非常分散时,对于机器而言学习如何行动会十分困难。 比如说要让一个机器人倒水进水杯里,如果不对机器人做任何指导,可能它做很多次尝试,reward都一直是零。(不知道杯子在哪,不知道拿着手上的水壶干嘛,不知道水壶靠近杯子之后应该怎么做) 因此,在训练或指导一个actor去做你想要它做的事情时,需要进行reward shaping 好奇 在原来的模型当中
相关文章
相关标签/搜索