【李宏毅深度强化学习笔记】1、深度强化学习算法 策略梯度方法(Policy Gradient)

回顾   在强化学习中,主要有三个部件(components):actor、environment、reward function。其中env和reward function是事先就定好的,你不能控制的。唯一能调整的是actor的policy,使actor能获得最大的reward。 policy是actor中起决策作用的一个东西,决定了actor的行为。就是说输入什么状态(state)要输出什么动
相关文章
相关标签/搜索