强化学习--QLearning

1.概述: QLearning基于值函数的方法,不同与policy gradient的方法,Qlearning是预测值函数,通过值函数来选择 值函数最大的action,而policy gradient直接预测出action。 Q-learning 是一种基于值函数估计的强化学习方法,Policy Gradient是一种策略搜索强化学习方法。 两者是求解强化学习问题的不同方法,如果熟悉监督学习, 前
相关文章
相关标签/搜索