强化学习实例11:策略梯度法(Policy Gradient)

本实例基于策略梯度的算法来学习“打乒乓球”游戏node 首先本实例的定义马尔可夫决策过程:python 状态s:每一时刻的游戏画面 行动a:右边绿色拍,向上或向下 策略:状态为s下,采起行动a的几率 强化学习的目标是最大化长期回报指望:git 其中为策略参数算法 定义目标函数J网络 策略梯度为app 用Q代替rdom 使用蒙特卡罗法求解函数 使用蒙特卡罗法,方差大。为了模型的稳定,提出Actor-
相关文章
相关标签/搜索