强化学习--QLearning

时间 2020-12-29

原文原文链接

1.概述： QLearning基于值函数的方法，不同与policy gradient的方法，Qlearning是预测值函数，通过值函数来选择值函数最大的action，而policy gradient直接预测出action。 Q-learning 是一种基于值函数估计的强化学习方法，Policy Gradient是一种策略搜索强化学习方法。两者是求解强化学习问题的不同方法，如果熟悉监督学习，前