深度强化学习（二）—— Policy Gradients

时间 2021-01-13

原文原文链接

一、Policy-based RL概述 1.Policy-based RL起源在学习Policy Gradiens（PG）之前，我们将强化学习的方法分成两类进行考虑： - 一类是value-based方法，需要计算价值函数（value function），根据自己认为的高价值选择行为（action）的方法，如Q Learning, sara, Deep Q Network（DQN） - 另一类是