强化学习（Policy Gradient，Actor Critic）

时间 2021-01-02

标签强化学习策略梯度 Actor-Critix 繁體版

原文原文链接

强化学习是通过奖惩的反馈来不断学习的，在Q-Learning，Sarsa和DQN中，都是学习到了价值函数或对价值函数的近似，然后根据价值来选择策略（如选择最大价值的动作），所以这一类也被称为Value Based Model。但是这种处理方式有几处瓶颈：处理连续动作效果差。对于高维度或连续状态空间，使用Value Based通过得到价值函数再制定策略，需要比较所有action的价值大小，此时选出

>>阅读原文<<