q-learning精讲

时间 2021-07-12

原文原文链接

Q-learning Q-learning是一种用于机器学习的强化学习技术。 Q-learning的目标是学习一种策略，告诉Agent在什么情况下要采取什么行动。它不需要环境模型，可以处理随机转换和奖励的问题，而无需进行调整。对于任何有限马尔可夫决策过程（FMDP），Q学习找到一种最优的策略，即从当前状态开始，它在任何和所有后续步骤中最大化总奖励的预期值。在给定无限探索时间和部分随机策略的情况