强化学习Actor-Critic算法

时间 2021-01-12

原文原文链接

在前面的文章中，介绍过基于Value的一系列强化学习算法以及基于Policy的强化学习算法。这两类算法有着各自优势，也有着各自的缺点。基于Value的算法可以单步更新，在确定性策略，离散动作空间的强化学习问题上有着良好的性能，但不适合解决连续型动作空间的强化学习问题。基于Policy的强化学习算法以回合为单位来更新，可以解决随机策略，连续型动作空间的强化学习问题，但因为是回合更新，收敛速度较慢

>>阅读原文<<