李弘毅深度强化学习笔记【1 Policy Gradient 】

强化学习得三个主要要素:actor(智能体本身),env(环境),reward function(奖励) 但是环境我们是无法改变得,reward我们也无法改变,唯一可以改变得是智能体得动作 智能体得策略:策略Π就是智能体在环境s得情况下选择行动a的概率 在policy gradient的算法中,我们用神经网络来拟合策略policy。神经网络的参数。 神经网络的输入是机器的观测值(可以用向量表示,也
相关文章
相关标签/搜索