强化学习(三)——Policy Gradients、Actor Critic、DDPG、A3C四种算法思想

一、Policy Gradients算法        在强化学习(二)中讲过的Q learning算法是根据分析Q值来选取动作,那么本节介绍一个直接输出动作的算法:Policy Gradients。该算法可以在一个连续区间输出动作(输出的动作可以是连续值)。Policy Gradients通过更新神经网络来决定输出策略,那神经网络是如何进行更新呢?利用reward值来引导某一个动作是否应该增加被
相关文章
相关标签/搜索