强化学习《奖励函数设计: Reward Shaping》详细解读

时间 2021-01-14

原文原文链接

深度强化学习实验室作者: 网易伏羲实验室编辑：DeepRL 一、整体介绍在强化学习中，智能体的目标被形式化表征为一种特殊信号，称为收益，它通过环境传递给智能体。在每个时刻，收益都是一个单一标量数值。非正式地说，智能体的目标是最大化其收到的总收益。这意味着需要最大化的不是当前收益，而是长期的累积收益。我们可以将这种非正式想法清楚地表述为收益假设：我们所有的“目标”或“目的”都可以归结为:最大

>>阅读原文<<