强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室 作者: 网易伏羲实验室 编辑:DeepRL 一、整体介绍 在强化学习中,智能体的目标被形式化表征为一种特殊信号,称为收益,它通过环境传递给智能体。在每个时刻,收益都是一个单一标量数值。非正式地说,智能体的目标是最大化其收到的总收益。这意味着需要最大化的不是当前收益,而是长期的累积收益。我们可以将这种非正式想法清楚地表述为收益假设: 我们所有的“目标”或“目的”都可以归结为:最大
相关文章
相关标签/搜索