笔记:强化学习 策略梯度算法

Q Learning ,SARSA,DQN 本质上都是学习一个价值函数 Q函数。 在环境决策时 需要首先确定当前的状态,然后根据Q(s,a)选择一个价值较高的动作去执行 策略梯度算法 策略梯度算法和他们都不同。 他不再去学习价值函数 Q函数 ,而是直接通过模型 比如神经网络 输入需要采取的动作 以Cartpole游戏为例,平台上面有一个直立的杆,我们不断左右移动平台,每一个时刻都可以获得奖励rew
相关文章
相关标签/搜索