机器学习:李宏毅深度强化学习笔记(四)Sparse Reward

https://blog.csdn.net/cindy_1102/article/details/87990012 Reward Shaping 当reward的分布非常分散时,对于机器而言学习如何行动会十分困难。 比如说要让一个机器人倒水进水杯里,如果不对机器人做任何指导,可能它做很多次尝试,reward都一直是零。(不知道杯子在哪,不知道拿着手上的水壶干嘛,不知道水壶靠近杯子之后应该怎么做)
相关文章
相关标签/搜索