5. 强化学习之——策略优化

课程大纲 基于策略的强化学习:前面讲的都是基于价值的强化学习,这次讲基于策略函数去优化的强化学习 蒙特卡罗策略梯度 如何降低策略梯度的方差 Actor-Critic:同时学习策略函数和价值函数 基于策略的强化学习基础知识 Value-based RL 与 Policy-based RL: Policy-based RL 的优势与劣势: 策略的分类: (1)确定性策略 (2)概率分布性策略  对策略
相关文章
相关标签/搜索