基于policy gradient的强化学习算法

基于policy gradient的强化学习算法相比于value function方法的优缺点: 优点: 直接策略搜索是对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。 值函数的放法无法解决状态空间过大或者不连续的情形 直接策略的方法可以采取随机策略,随机策略可以将探索直接集成到算法当中 缺点: 策略搜索的方法更容易收敛局部极值点 在评估单个策略时,评估的并不好,方差容易过
相关文章
相关标签/搜索