【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

时间 2021-01-02

原文原文链接

回顾在强化学习中，主要有三个部件(components)：actor、environment、reward function。其中env和reward function是事先就定好的，你不能控制的。唯一能调整的是actor的policy，使actor能获得最大的reward。 policy是actor中起决策作用的一个东西，决定了actor的行为。就是说输入什么状态（state）要输出什么动

>>阅读原文<<

【李宏毅深度强化学习笔记】1、深度强化学习算法 策略梯度方法（Policy Gradient）

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）