强化深度学习task06连续动作空间和DDPG

时间 2021-07-08

原文原文链接

一、连续动作和离散动作连续动作：动作是连续的浮点数比如速度、推力、角度、电压等离散动作：动作是离散值，比如上下左右等。求解方法：离散动作：softmax映射连续动作：tanh连续映射二、DDPG 是DQN的扩展版，可扩展至连续空间 actor-critic结构演员输出动作，并根据评论家的评判修改动作策略，评论家根据分数（观众反应）得出动作评判标准