深度强化学习落地宝典(5)——状态空间篇

目录 前言 状态设计的四个步骤 任务分析 相关信息筛选 直接相关信息 间接相关信息 相关信息预处理 统一性考虑 形式统一 逻辑统一 效果验证 模仿学习验证 直接验证 缺省验证 总结 前言 DRL的状态信息代表了agent所感知到的环境信息,以及因自身的action带来的变化。状态信息是agent制定决策和评估其长期收益的依据,而状态设计的好坏直接决定了DRL算法能否收敛、收敛速度以及最终性能,兹事
相关文章
相关标签/搜索