强化学习——Q-learning算法

时间 2019-12-06

标签强化学习 learning 算法繁體版

原文原文链接

Q-learning 简介 Q-learning是一个无模型强化学习算法。Q-learning的目标是学习一个策略，它告诉agent在什么状况下应该采起什么行动。它不须要环境的模型(所以就有了“无模型”的含义)，而且它能够处理随机转换和奖励的问题，而不须要适应。web 对于任何有限马尔可夫决策过程(FMDP)， Q-learning发现一个策略是最优的，从这个意义上说，它从当前状态开始，在全部连续

>>阅读原文<<