深度强化学习之模仿学习（Imitation Learning）

时间 2021-01-02

标签笔记繁體版

原文原文链接

上一部分研究的是奖励稀疏的情况，本节的问题在于如果连奖励都没有应该怎么办，没有奖励的原因是，一方面在某些任务中很难定量的评价动作的好坏，如自动驾驶，撞死人和撞死动物的奖励肯定不同，但分别为多少却并不清楚，另一方面，手动设置的奖励可能导致不可控的行为。要解决此类问题，可以将人类专家的范例作为强化学习代理的参考去学习，因此模仿学习又叫演示学习（Learning by demonstration）或

>>阅读原文<<