强化学习在船舶中的应用(四)——三种方法

强化学习的三种方法 前面文章已经定义了有关强化学习的主要概念,下面继续讲解解决强化学习问题的三种方法。 (一)基于价值 在基于价值的智能体中,其目标是优化价值函数V(s)。价值函数是一个函数,它用来刻画智能体在每个状态下获得的最大预期未来奖励。每个状态的价值是从该状态开始,智能体在未来积累的奖励总和(期望)。 智能体通过使用值函数,在每个步骤中对下一个状态进行选择。智能体获得具有最大期望价值的状态
相关文章
相关标签/搜索