强化学习算法分类总结

时间 2021-01-08

原文原文链接

知识总结：https://www.jianshu.com/p/a04a8c7bee98 A2C，A3C，PPO1，PPO2 ：策略函数的优化(πθ(a|s)) Q-learing : 动作值函数的优化(Qθ(s,a)) DDPG，SAC ：结合策略函数和动作值函数(πθ(a|s)+Qθ(s,a)

>>阅读原文<<

相关文章

相关标签/搜索

学习、总结

强化学习篇

Docker学习总结

PHP 7 新特性

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<