Reinforcement Learning:Policy Gradient

Introduction Finite Difference Policy Gradient Monte-Carlo Policy Gradient likelihood ratios Actor-Critic Policy Gradient Introduction 上一节说的是value function approximation,使用的是函数拟合。这一节说的就是采用概率的方法来表示:这一节
相关文章
相关标签/搜索