机器学习——强化学习Q_learning算法

假设有这样的房间 如果将房间表示成点,然后用房间之间的连通关系表示成线,如下图所示: 这就是房间对应的图。我们首先将agent(机器人)处于任何一个位置,让他自己走动,直到走到5房间,表示成功。为了能够走出去,我们将每个节点之间设置一定的权重,能够直接到达5的边设置为100,其他不能的设置为0,这样网络的图为: Qlearning中,最重要的就是“状态”和“动作”,状态表示处于图中的哪个节点,比如
相关文章
相关标签/搜索