强化学习算法分类总结

知识总结:https://www.jianshu.com/p/a04a8c7bee98 A2C,A3C,PPO1,PPO2 :策略函数的优化(πθ(a|s)) Q-learing                              :  动作值函数的优化(Qθ(s,a)) DDPG,SAC                       :结合策略函数和动作值函数(πθ(a|s)+Qθ(s,a)
相关文章
相关标签/搜索