强化学习之DDPG

1.为什么需要DDPG? 强化学习的概念在这不再赘述,是一个agent在与环境不断交互,采用action得到reward,为了达到最大的累计奖励值的过程。所以强化学习的核心在于学习根据当前agent的state采用action的策略。 大家都很熟悉的算法有Q-learning(Deep Q Learning)、SARSA,但是这两种方法针对的动作空间都是离散的,即有限的。从Q-learning到D
相关文章
相关标签/搜索