强化学习——值函数与Bellman方程

在强化学习中,agent和环境之间进行一系列交互:在每一个时刻 t ,根据环境的状态和奖励,agent采起某一行为;这个行为会做用到环境中,环境改变状态并对agent进行奖励。web agent的目标是最大化累积奖励。svg 1 MDP 马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。函数 MDP是一个五元组 <S,A,P,R,γ> ,其中 - S 是一
相关文章
相关标签/搜索