强化学习（三）——Policy Gradients、Actor Critic、DDPG、A3C四种算法思想

时间 2021-01-12

原文原文链接

一、Policy Gradients算法在强化学习（二）中讲过的Q learning算法是根据分析Q值来选取动作，那么本节介绍一个直接输出动作的算法：Policy Gradients。该算法可以在一个连续区间输出动作（输出的动作可以是连续值）。Policy Gradients通过更新神经网络来决定输出策略，那神经网络是如何进行更新呢？利用reward值来引导某一个动作是否应该增加被