解读DDPG算法结构

算法流程 1.主要的架构可以分解成以下几部分进行理解:        *首先DDPG的特点是actor虽然是PG的架构,但是actor输出的动作值并不是一个概率分布,而是一个确定性的连续动作选择(可以适用连续动作情况),其网络就是给予状态作为输入,然后网络会给予一个动作作为输出,表示在这个状态情况下,最该采取的动作值, 然后对其这个online网络的更新是根据critic网络提供更新依据,也就是下
相关文章
相关标签/搜索