深度强化学习-DDPG-笔记(八)

深度确定性策略梯度 DDPG 离散动作 vs. 连续动作 DDPG(Deep Deterministic Policy Gradient) DDPG 的特点 离散动作 vs. 连续动作 离散动作:动作个数是可数的。比如,在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中,游戏有
相关文章
相关标签/搜索