基于Policy的强化学习算法

在文章基于Value的强化学习算法中,介绍了Q-learning和SARSA两种经典的强化学习算法。在本篇文章中,将介绍一下基于Policy的经典强化学习算法——Policy Gradient。 Value-based的不足 Value-based强化学习算法,是根据当前状态下的Q值来选取动作去执行。因此,一旦Q值表收敛,那么对于某一个状态 ,其选择的动作 将是唯一确定的,即确定性的策略。这就导致
相关文章
相关标签/搜索