强化学习组队学习task06——DDPG 算法

文章目录 一、离散动作和连续动作 二、DDPG(Deep Deterministic Policy Gradient) Actor-Critic结构 一、离散动作和连续动作 离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。 离散动作比如推小车的方向有前后左右四个方向 连续动作比如说推小车力的大小、 选择下一时刻方向盘的转动角度或者四轴飞行器的 四个螺旋桨给的电压的大小等等。 对于这些
相关文章
相关标签/搜索