基于策略搜索的强化学习方法

基于策略搜索的强化学习方法 1.policy gridient 1.1 基础推导 1.2 Tip Tip1: add a baseline(增加基线) 因为原来的梯度,一直都会取正数,不是特别合适,但是这样其实无可厚非,因为可以用过大小进行区分,但我们这里更好的办法是给他加入一个基线,让其有正有负。 Tip2:Assign Suitable Credit 因为如果对于每个执行的动作,都使用同样的全
相关文章
相关标签/搜索