Dueling DQN 值函数和优势函数

时间 2021-01-12

原文原文链接

定义advantage,动作的优势程度函数将Q网络分成两个通道，一个输出V，一个输出A，最后再合起来得到Q Q(s,a) = 状态的所有动作Q期望 + action-value的优势程度(思考优势程度的定义) Q(s,a) = A(s,a) + V(s) 1.值函数V(s) 定义: 状态s下所有动作价值的期望(矩阵size=1) 2.优势函数A(s,a) 避免两个支路直接学习到V(s)=0或者A