强化学习—DQN算法原理详解

时间 2021-01-01

原文原文链接

强化学习—DQN算法原理详解一、概述强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。说到DQN中有值函数网络，这里简