强化学习入门（五）连续动作空间内，使用DDPG求解强化学习问题

时间 2021-01-11

标签强化学习人工智能机器学习算法百度繁體版

原文原文链接

本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解文章目录一、离散动作 VS 连续动作 1.1 区别 1.2 神经网络修改 1.3 激活函数选择二、DDPG（Deep Deterministic Policy Gradient） 2.1 从 DQN 到 DDPG 2.2 Actor-Critic 结构 2.3 DDPG 的优化目标和最佳策略 2.4

>>阅读原文<<