6. 强化学习之——策略优化进阶

课程大纲 Policy Gradient 算法的不同的变种 近五年的最新策略优化方法【6种方法,2条主线】 主线一:Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO 主线二:Q-Learning -> DDPG ->TD3 -> SAC Policy Gradient 算法的不同形式 总结一下: Policy Gra
相关文章
相关标签/搜索