【RL】Actor-Critic

时间 2021-01-12

标签 IL&IRL&RL Actor-Critic 繁體版

原文原文链接

强化学习的算法分为基于价值与基于策略两大类，这两大类在思想上是完全不同的。基于价值的算法目标是拟合隐藏在环境中的价值函数，而基于策略的算法则是不断地优化策略。所有强化学习的算法，基本的思想都不外乎于这两种。从这个角度上说，Actor-Critic算法本质上还是基于策略的方法，因为其算法的核心还是在不断地优化策略。虽然我们要训练价值网络，但是其目标也只是“辅佐”策略网络更好地训练。当我们学习VPG算

>>阅读原文<<

1. Variational RL for POMDP
2. RL for Sentence Generation
3. Bayesian RL and PGMRL
4. RL的分类
5. cs294-RL introduction
6. 【RL】7.Reward Issue
7. 【RL】6.Actor-Critic
8. 【RL】8.Imitation Learning
9. Attacks for RL
10. （转）RL — Policy Gradient Explained
更多相关文章...
• PHP substr_compare() 函数 - PHP参考手册
• PHP crypt() 函数 - PHP参考手册