深度Q-learning简介【RL系列】

时间 2021-01-16

原文原文链接

今天，我们将构建一个深度Q网络，为环境中的agent实现一个可以获取环境状态信息以及近似Q-value的神经网络。多亏这个模型，我们才可以使用agent打Doom游戏。在这篇文章中，你将学到：什么是深度Q学习（DQL）。 DQL中的最好策略是什么？如何解决Temporal limitation问题？为什么我们使用经验回放？ DQL背后的数学理论是什么？如何通过tensorflow实现？