强化学习从入门到放弃（一）基本数学模型MDP

时间 2021-01-14

原文原文链接

强化学习最本质的数学模型，MDP 强化学习的本质其实就是一个马尔可夫决策过程（MDP），在一个，MDP中最关键的一个公式就是bellman equation：下面说的是在一个没有action的MRP过程中，一个状态的价值 v ( s ) v(s) v(s)与当前状态的奖励 R ( s ) R(s) R(s) 和此状态的转移状态 V ( s ′ ) V(s') V(s′)有关。对于Bellman

>>阅读原文<<