强化学习(二):Policy Gradient理解

上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解。于是,本章我们就从有监督学习和强化学习的区别开始讲起,探讨策略梯度思想指导下的强化学习理念的简单理解。 在之前的章节:强化学习(一):简单的DQN理解中,我们已经了解到使用值函数的方法进行强化学习的本质是需要通过奖励
相关文章
相关标签/搜索