Dueling DQN 值函数和优势函数

定义advantage,动作的优势程度函数 将Q网络分成两个通道,一个输出V,一个输出A,最后再合起来得到Q Q(s,a) = 状态的所有动作Q期望 + action-value的优势程度(思考优势程度的定义) Q(s,a) = A(s,a) + V(s) 1.值函数V(s) 定义: 状态s下所有动作价值的期望(矩阵size=1) 2.优势函数A(s,a) 避免两个支路直接学习到V(s)=0或者A
相关文章
相关标签/搜索