七月算法强化学习 第五课 学习笔记

Policy Gradient策略梯度 增强学习的一些分类: Value Based:值函数 Q值函数 Policy Based:不需要值函数 直接优化Policy Actor Critic:学习值函数 学习Policy Deterministic policy的问题 Policy Network Gradient Ascent Policy Objective One step MDP Mult
相关文章
相关标签/搜索