强化学习Actor-Critic算法

在前面的文章中,介绍过基于Value的一系列强化学习算法以及基于Policy的强化学习算法。这两类算法有着各自优势,也有着各自的缺点。 基于Value的算法可以单步更新,在确定性策略,离散动作空间的强化学习问题上有着良好的性能,但不适合解决连续型动作空间的强化学习问题。 基于Policy的强化学习算法以回合为单位来更新,可以解决随机策略,连续型动作空间的强化学习问题,但因为是回合更新,收敛速度较慢
相关文章
相关标签/搜索