强化学习-策略迭代

时间 2021-01-12

原文原文链接

1. 前言在强化学习-MDP(马尔可夫决策过程)算法原理中我们已经介绍了强化学习中的基石--MDP，本文的任务是介绍如何通过价值函数，去寻找到最优策略，使得最后得到的奖励尽可能的多。 2. 回顾MDP 通过学习MDP我们得到了2个Bellman公式：状态值函数： \[ v_{\pi}(s_t)=\sum_{a_t}\pi(a_t|s_t)\sum_{s_{t+1}}p(s_{t+1}|s_t,