深度强化学习(二)—— Policy Gradients

一、Policy-based RL概述 1.Policy-based RL起源 在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: - 一类是value-based方法,需要计算价值函数(value function),根据自己认为的高价值选择行为(action)的方法,如Q Learning, sara, Deep Q Network(DQN) - 另一类是
相关文章
相关标签/搜索