DQN从入门到放弃学习总结（2）

时间 2021-01-04

标签强化学习算法繁體版

原文原文链接

1、动作价值函数：每个状态对应多种动作，我们考率在某个状态下执行不同动作所获得的价值，通过其大小，便可选择价值最大的来执行。Action-Value function：。同样，也是用reward来表示，但是此处reward是执行动作以后获得的，之前state对应的reward则是多种动作对应的reward的期望。动作-价值函数表示如下：此处包含策略，即在策略下的动作价值。因为对于每一个动作，

>>阅读原文<<