关于“强化学习策略梯度方法方差大的原因与解决方法”问题的思考

时间 2021-01-12

原文原文链接

目录 1 阅前需知 2 为什么方差大？ 3 如何解决方差大问题？ 3.1 Add a baseline 3.2 TD 代替 MC (即Actor-Critic方法) 1 阅前需知策略梯度方法(Policy-Based)方法直接学习参数化的策略来进行动作的选择。本文所用符号的习惯与下书一致此书中将