强化学习——Q-learning算法

Q-learning 简介 Q-learning是一个无模型强化学习算法。Q-learning的目标是学习一个策略,它告诉agent在什么状况下应该采起什么行动。它不须要环境的模型(所以就有了“无模型”的含义),而且它能够处理随机转换和奖励的问题,而不须要适应。web 对于任何有限马尔可夫决策过程(FMDP), Q-learning发现一个策略是最优的,从这个意义上说,它从当前状态开始,在全部连续
相关文章
相关标签/搜索