强化学习6

时间 2021-07-08

标签深度学习机器学习自然语言处理网络算法神经网络 python 栏目系统网络繁體版

原文原文链接

1 关键词 DDPG(Deep Deterministic Policy Gradient)：在连续控制领域经典的RL算法，是DQN在处理连续动作空间的一个扩充。具体地，从命名就可以看出，Deep是使用了神经网络；Deterministic 表示 DDPG 输出的是一个确定性的动作，可以用于连续动作的一个环境；Policy Gradient 代表的是它用到的是策略网络，并且每个 step 都会更

>>阅读原文<<