强化学习组队学习task06——DDPG 算法

时间 2021-06-22

标签强化学习繁體版

原文原文链接

文章目录一、离散动作和连续动作二、DDPG(Deep Deterministic Policy Gradient) Actor-Critic结构一、离散动作和连续动作离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。离散动作比如推小车的方向有前后左右四个方向连续动作比如说推小车力的大小、选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些

>>阅读原文<<