强化学习——Qlearning——value based

时间 2021-01-03

原文原文链接

目录 Critic评判一个actor面对不同s时的得分借助reward函数的计算结果，但更专注于行为本身的意义评判一个行为的在一个状态下的得分的MC和TD方案 TD方案综合了历史信息，更加符合行为本身 Critic作为Q函数，与actor关联，输入状态，输出各种行为的得分从已有的样本集中用TD or MC搜集信息，统计当前agent的每个s中每个action的价值，更新agent：用s中最有