【李宏毅-强化学习笔记】p6、Actor-Critic

一、policy gradient回顾 G是看到st后采取at之后获取的收益总和,但是这个值是一个分布值,在不同的episode中可能波动会很大。如果有足够的数据的话,这不是一个问题,当数据不足的时候,那么模型的波动会很大,希望用期望值来代替采样(当前的)值。就是说,训练一个network,输入为s输出为奖励的期望值。 二、Q_learning回顾 V是态势评估,Q是引导选择。 三、Actor-C
相关文章
相关标签/搜索