基于Policy的强化学习算法

时间 2020-12-30

原文原文链接

在文章基于Value的强化学习算法中，介绍了Q-learning和SARSA两种经典的强化学习算法。在本篇文章中，将介绍一下基于Policy的经典强化学习算法——Policy Gradient。 Value-based的不足 Value-based强化学习算法，是根据当前状态下的Q值来选取动作去执行。因此，一旦Q值表收敛，那么对于某一个状态，其选择的动作将是唯一确定的，即确定性的策略。这就导致