强化学习实例11：策略梯度法（Policy Gradient）

时间 2019-12-06

标签强化学习实例策略梯度 policy gradient 繁體版

原文原文链接

本实例基于策略梯度的算法来学习“打乒乓球”游戏node 首先本实例的定义马尔可夫决策过程：python 状态s：每一时刻的游戏画面行动a：右边绿色拍，向上或向下策略：状态为s下，采起行动a的几率强化学习的目标是最大化长期回报指望：git 其中为策略参数算法定义目标函数J网络策略梯度为app 用Q代替rdom 使用蒙特卡罗法求解函数使用蒙特卡罗法，方差大。为了模型的稳定，提出Actor-

>>阅读原文<<