强化学习——Qlearning——value based

目录 Critic评判一个actor面对不同s时的得分 借助reward函数的计算结果,但更专注于行为本身的意义 评判一个行为的在一个状态下的得分的MC和TD方案 TD方案综合了历史信息,更加符合行为本身 Critic作为Q函数,与actor关联,输入状态,输出各种行为的得分 从已有的样本集中用TD or MC搜集信息,统计当前agent的每个s中每个action的价值,更新agent:用s中最有
相关文章
相关标签/搜索