笔记：强化学习策略梯度算法

时间 2021-01-12

标签强化学习繁體版

原文原文链接

Q Learning ，SARSA，DQN 本质上都是学习一个价值函数 Q函数。在环境决策时需要首先确定当前的状态，然后根据Q（s,a）选择一个价值较高的动作去执行策略梯度算法策略梯度算法和他们都不同。他不再去学习价值函数 Q函数，而是直接通过模型比如神经网络输入需要采取的动作以Cartpole游戏为例，平台上面有一个直立的杆，我们不断左右移动平台，每一个时刻都可以获得奖励rew

>>阅读原文<<

笔记：强化学习 策略梯度算法

笔记：强化学习策略梯度算法