强化学习 优势函数(Advantage Function)

目录 什么是优势函数 归一化、激活函数等学习问题  为什么要使用优势函数 常见的优势函数 什么是优势函数 优势函数表达在状态s下,某动作a相对于平均而言的优势。 从数量关系来看,就是随机变量相对均值的偏差。 使用优势函数是深度强化学习极其重要的一种策略,尤其对于基于policy的学习。 定义如下: 归一化、激活函数等学习问题  以下是常见的激活函数,梯度学习时,可以发现: 1,Sigmoid一类的
相关文章
相关标签/搜索