【RL】Vanilla Policy Gradient（VPG）

时间 2020-12-24

标签 IL&IRL&RL VPG 策略梯度繁體版

原文原文链接

policy gradient的基本思想，是把总的奖励表示为策略的函数，然后对这个函数做优化。在这一章中，我们将详细地讲解这个函数具体的形式是怎么样的、如何求出策略梯度，理解policy gradient这个算法的基本框架。关于MDP中动作与状态是否是连续变量，一共有四种不同的组合。其中，状态是有限分类变量的情况是不适合采用神经网络的，所以在这里不予讨论。在本章中，主要要考虑的情况是状态 s s

>>阅读原文<<

1. （转）RL — Policy Gradient Explained
2. RL policy gradient 之 A2C, A3C,PPO小总结
3. Policy Gradient 算法
4. Ⅶ. Policy Gradient Methods
5. [Reinforcement Learning] Policy Gradient Methods
6. 【RL】从on-policy到off-policy
7. Policy Gradient Algorithms
8. Policy Gradient简述
9. 7 Policy Gradient
10. DRL（三）——Policy Gradient
更多相关文章...
• PHP substr_compare() 函数 - PHP参考手册
• PHP crypt() 函数 - PHP参考手册