Deep Reinforcement Learning —— DDPG原理和算法

背景描述 概括来说,RL要解决的问题是:让agent学习在一个环境中的如何行为动作(act), 从而获得最大的奖励值总和(total reward)。 这个奖励值一般与agent定义的任务目标关联。 agent需要的主要学习内容:第一是行为策略(action policy), 第二是规划(planning)。 其中,行为策略的学习目标是最优策略, 也就是使用这样的策略,可以让agent在特定环境中
相关文章
相关标签/搜索