强化学习从入门到放弃(一)基本数学模型MDP

强化学习最本质的数学模型,MDP 强化学习的本质其实就是一个马尔可夫决策过程(MDP),在一个,MDP中最关键的一个公式就是bellman equation: 下面说的是在一个没有action的MRP过程中,一个状态的价值 v ( s ) v(s) v(s)与当前状态的奖励 R ( s ) R(s) R(s) 和此状态的转移状态 V ( s ′ ) V(s') V(s′)有关。 对于Bellman
相关文章
相关标签/搜索