2020李宏毅学习笔记——71 RL Advanced Version7.Sparse Reward

时间 2021-01-04

原文原文链接

Reward Shaping 当reward的分布非常分散时，对于机器而言学习如何行动会十分困难。比如说要让一个机器人倒水进水杯里，如果不对机器人做任何指导，可能它做很多次尝试，reward都一直是零。（不知道杯子在哪，不知道拿着手上的水壶干嘛，不知道水壶靠近杯子之后应该怎么做）因此，在训练或指导一个actor去做你想要它做的事情时，需要进行reward shaping 好奇在原来的模型当中