强化学习笔记(6)Policy Gradient 策略梯度下降

文章目录 概念 Value-Based and Policy-Based RL Value-Based Policy -Based Actor-Critic 目标函数的确定 梯度下降解决问题 Likelihood ratios 自然对数 Softmax Policy Gaussian Policy 连续动作空间 一步MDP过程为例:利用score function推导梯度。 One Step MD
相关文章
相关标签/搜索