深度强化学习中稀疏奖励问题Sparse Reward

时间 2021-08-12

标签 ios 算法 spring api 网络函数学习 spa .net 设计栏目 iOS 繁體版

原文原文链接

Sparse Reward

推荐资料

强化学习算法在被引入深度神经网络后，对大量样本的需求更加明显。若是智能体在与环境的交互过程当中没有得到奖励，那么该样本在基于值函数和基于策略梯度的损失中的贡献会很小。ios

针对解决稀疏奖励问题的研究主要包括：¹算法

Reward Shaping：奖励设计与学习spring
经验回放机制api
探索与利用网络
多目标学习和辅助任务函数

1. Reward Shaping

人为设计的 “密集”奖励。学习

例如，在机械臂“开门”的任务中，原始的稀疏奖励设定为：若机械臂把门打开，则给予“＋１”奖励，其他状况下均给予“０”奖励。然而，因为任务的复杂性，机械臂从随机策略开始，很难经过自身探索得到奖励。为了简化训练过程，可使用人为设计的奖励：１)在机械臂未碰到门把手时，将机械臂与门把手距离的倒数做为奖励；２)当机械臂接触门把手时，给予“＋0.１”奖励；３)当机械臂转动门把手时，给予“＋０.５”奖励；４)当机械臂完成开门时，给予“＋１”奖励。这样，经过人为设计的密集奖励，能够引导机械臂完成开门的操做，简化训练过程。spa

2. 逆向强化学习

针对人为设计奖励中存在的问题，Ng等²提出了从最优交互序列中学习奖励函数的思路，此类方法称为”逆强化学习”。.net

3. 探索与利用（好奇法）：

在序列决策中，智能体可能须要牺牲当前利益来选择非最优动做，指望可以得到更大的长期回报。设计

在 DRL领域中使用的探索与利用方法主要包括两类：基于计数的方法和基于内在激励的方法。其目的是构造虚拟奖励，用于和真实奖励函数共同窗习。因为真实的奖励是稀疏的，使用虚拟奖励能够加快学习的进程。

ICM³（逆环境模型）—— 改进的基于内在激励的方法

Network 1：预测的状态S与实际状态S差异越大，回报r越大，鼓励冒险
Network 2：输入 \(S_t\) 和 \(S_{t+1}\) ，预测动做 \(a_t\) ，与真实动做差异大时，表示可有可无的状态。
ICM 经过学习能够在特征空间中去除与预测动做无关的状态特征，在特征空间中构建环境模型能够去除环境噪声。

4. 多目标学习——层次强化学习

智能体能够从已经到达的位置来得到奖励。在训练中使用虚拟目标替代原始目标，使智能体即便在训练初期也能很快得到奖励，极大地加速了学习过程。
将一个单一目标，拆解为多个阶段的多层级的目标。

5. 辅助任务

在稀疏奖励状况下，当原始任务难以完成时，每每能够经过设置辅助任务的方法加速学习和训练。

Curriculum Learning，“课程式”强化学习：

当完成原始任务较为困难时，奖励的获取是困难的。此时，智能体能够先从简单的、相关的任务开始学习，而后不断增长任务的难度，逐步学习更加复杂的任务。

直接添加辅助任务：第二类方法是直接在原任务的基础上添加并行的辅助任务，原任务和辅助任务共同窗习。

参考文献

[1] 杨唯轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(03):182-191.