强化学习入门(五)连续动作空间内,使用DDPG求解强化学习问题

本文内容源自百度强化学习 7 日入门课程学习整理 感谢百度 PARL 团队李科浇老师的课程讲解 文章目录 一、离散动作 VS 连续动作 1.1 区别 1.2 神经网络修改 1.3 激活函数选择 二、DDPG(Deep Deterministic Policy Gradient) 2.1 从 DQN 到 DDPG 2.2 Actor-Critic 结构 2.3 DDPG 的优化目标和最佳策略 2.4
相关文章
相关标签/搜索