李弘毅深度强化学习笔记【1 Policy Gradient 】

时间 2021-01-02

原文原文链接

强化学习得三个主要要素：actor（智能体本身），env（环境），reward function（奖励）但是环境我们是无法改变得，reward我们也无法改变，唯一可以改变得是智能体得动作智能体得策略：策略Π就是智能体在环境s得情况下选择行动a的概率在policy gradient的算法中，我们用神经网络来拟合策略policy。神经网络的参数。神经网络的输入是机器的观测值（可以用向量表示，也