关于“强化学习 策略梯度方法 方差大 的原因与解决方法”问题的思考

目录 1 阅前需知 2 为什么方差大? 3 如何解决方差大问题? 3.1 Add a baseline 3.2 TD 代替 MC (即Actor-Critic方法) 1 阅前需知 策略梯度方法(Policy-Based)方法直接学习参数化的策略来进行动作的选择。本文所用符号的习惯与下书一致                                                   此书中将
相关文章
相关标签/搜索