强化学习算法在被引入深度神经网络后,对大量样本的需求更加明显。若是智能体在与环境的交互过程当中没有得到奖励,那么该样本在基于值函数和基于策略梯度的损失中的贡献会很小。ios
针对解决稀疏奖励问题的研究主要包括:1算法
Reward Shaping:奖励设计与学习spring
经验回放机制api
探索与利用网络
多目标学习和辅助任务函数
人为设计的 “密集”奖励。学习
例如,在机械臂“开门”的任务中,原始的稀疏奖励设定为:若机械臂把门打开,则给予“+1”奖励,其他状况下均给予“0”奖励。然而,因为任务的复杂性,机械臂从随机策略开始,很难经过自身探索得到奖励。为了简化训练过程,可使用人为设计的奖励:1)在机械臂未碰到门把手时,将机械臂与门把手距离的倒数做为奖励;2)当机械臂接触门把手时,给予“+0.1”奖励;3)当机械臂转动门把手时,给予“+0.5”奖励;4)当机械臂完成开门时,给予“+1”奖励。这样,经过人为设计的密集奖励,能够引导机械臂完成开门的操做,简化训练过程。spa
针对人为设计奖励中存在的问题,Ng等2提出了从最优交互序列中学习奖励函数的思路,此类方法称为”逆强化学习”。.net
在序列决策中,智能体可能须要牺牲当前利益来选择非最优动做,指望可以得到更大的长期回报。设计
在 DRL领域中使用的探索与利用方法主要包括两类:基于计数的方法和基于内在激励的方法。其目的是构造虚拟奖励,用于和真实奖励函数共同窗习。因为真实的奖励是稀疏的,使用虚拟奖励能够加快学习的进程。
在稀疏奖励状况下,当原始任务难以完成时,每每能够经过设置辅助任务的方法加速学习和训练。
Curriculum Learning,“课程式”强化学习:
当完成原始任务较为困难时,奖励的获取是困难的。此时,智能体能够先从简单的、相关的任务开始学习,而后不断增长任务的难度,逐步学习更加复杂的任务。