Soft Actor-Critic 论文翻译

目录 论文链接 摘要 Introduction 相关工作 背景 符号表示 最大熵强化学习 从soft策略迭代到soft actor-critic soft 策略迭代方法的推导 SAC算法 实验 比较评估 简化实验 随机策略和确定性策略 策略评估 反馈的范围 reward scale 目标网络更新 总结 最后 论文链接 “Soft Actor-Critic: Off-Policy Maximum E
相关文章
相关标签/搜索