DQN从入门到放弃学习总结(2)

1、动作价值函数: 每个状态对应多种动作,我们考率在某个状态下执行不同动作所获得的价值,通过其大小,便可选择价值最大的来执行。Action-Value function:。同样,也是用reward来表示,但是此处reward是执行动作以后获得的,之前state对应的reward则是多种动作对应的reward的期望。 动作-价值函数表示如下: 此处包含策略,即在策略下的动作价值。因为对于每一个动作,
相关文章
相关标签/搜索