【李宏毅-强化学习笔记】p6、Actor-Critic

时间 2021-01-21

标签强化学习繁體版

原文原文链接

一、policy gradient回顾 G是看到st后采取at之后获取的收益总和，但是这个值是一个分布值，在不同的episode中可能波动会很大。如果有足够的数据的话，这不是一个问题，当数据不足的时候，那么模型的波动会很大，希望用期望值来代替采样（当前的）值。就是说，训练一个network，输入为s输出为奖励的期望值。二、Q_learning回顾 V是态势评估，Q是引导选择。三、Actor-C

>>阅读原文<<